**Autonomous driving tech./*Deep-Learning

[Deep-Learning] 01, k-NN, SVM

2wnswoo 2025. 3. 3. 20:12

  • 지도학습 Supervised learning
    • 학습시 데이터에 대한 레이블( 정답 )을 함께 부여하는 학습 방식
      • 정답값 = 레이블, 실제값, 타깃, y값
      • 예측값 = 분류값, y hat
  • 비지도 학습 Unsupervised learning
    • 학습시 레이블 없이 데이터만 필요함

--

  • 분류와 회귀
    • 데이터가 입력됐을 때 분류는 분리된 값으로 예측 Ex. 덥다/춥다
    • 회귀는 연속된 값으로 예측 Ex. 30.5도, 3.5도
      • 분류에는 이진분류/다중분류 로 나뉨

--

  • 머신러닝 모델 학습에 가장 큰 영향을 주는 것은 데이터.
  • 이 데이터에서 충분히 특징을 찾아내지 못하고 머신러닝 모델을 학습할 경우 모델이 과소적합, underfitting 되기 쉬움
  • 필요 이상의 특징으로 학습할 경우,머신러닝 모델이 학습데이터에서만 높은 정확도를 가지는 경우, 과대적합, overfitting이 되기 쉬움
  • 조기 종료 early stopping 및 드롭아웃 drop out 을 이용해 과대적합을 피할 수 있음
  • 최적의 모델은 분산과 편향이 균형된 모델
혼동 행렬, confusion matrix

 

모델의 성능을 평가할 때 사용되는 지표

  • 정확도 accurancy는 모델이 입력된 데이터에 대해 얼마나 정확하게 예측하는지?로, TP값을 지표의 모든 값으로 나누면 된다. Ex. 0.78
  •  정밀도 precision은 모델의 예측값이 얼마나 정확하게 예측됐는가?를 나타내는 지표
  • 재현율 recall은 실제값 중에서 모델이 검출한 실제값의 비율을 나타내는 지표
  • 정밀도와 재현율을 둘 다 사용하는 것을 F1 score, 좀 더 나은 성능 평가 비교가 가능

🚀 결론

머신러닝 모델을 만들 때, "데이터 + 알고리즘"이 중요!
모델을 학습시키고, 검증해서 성능이 좋은 모델을 만드는 게 목표!
KNN 같은 알고리즘을 사용해서 데이터 기반으로 학습 & 예측! 😎

k-최근접 이웃, K-Nearest Neighbor, kNN

 

  • 지도학습 알고리즘
  • kNN 알고리즘은 이해하기 쉬우나, 다른 알고리즘에 비해서 연산 속도가 느리다는 단점이 있다.
  • kNN의 조절 가능한 변수는 오직 하나, 살펴볼 이웃의 개수 (k)이다.
  • k의 개수에 따라 모델의 예측값도 달라지므로 예측값이 가장 높은 최적의 k를 찾는 것이 상당히 중요하다.
서포트 벡터 머신, SVM

 

  • 지도학습 알고리즘
    • 결정 경계 : 서로 다른 분류값을 결정하는 경계 Ex. 경계 위는 강북, 아래는 강남
    • 서포트 벡터 : 결정 경계를 만드는 데 영향을 주는 최전방 데이터 포인트
    • 마진 : 결정경계와 서포트 벡터 사이의 거리
  • SVM의 핵심은 주어진 데이터 분포 속에서 결정 경계를 찾아내는 것
    • 2차원일시 > 두 개의 데이터 집합을 가로지르는 선을 
    • 3차원일시 > 두 개의 데이터 집합을 가로지르는 초평면을
  • 저차원( Ex. 1차원 ) 데이터를 고차원( Ex. 2차원 ) 데이터로 옮겨주는 함수를 매핑 함수 라고 한다.
    • 그러나 계산량이 너무 많아서 잘 안사용함 이를 대체하는 것이 바로
  • 커널 트릭, kernel trick : 저차원에서 결정 경계를 찾지 못할 때 고차원으로 데이터를 옮겨서 결정 경계를 찾는 방법

 

'**Autonomous driving tech. > *Deep-Learning' 카테고리의 다른 글

[Deep-Learning] 02  (0) 2025.03.04