- 지도학습 Supervised learning
- 학습시 데이터에 대한 레이블( 정답 )을 함께 부여하는 학습 방식
- 정답값 = 레이블, 실제값, 타깃, y값
- 예측값 = 분류값, y hat
- 학습시 데이터에 대한 레이블( 정답 )을 함께 부여하는 학습 방식
- 비지도 학습 Unsupervised learning
- 학습시 레이블 없이 데이터만 필요함
--
- 분류와 회귀
- 데이터가 입력됐을 때 분류는 분리된 값으로 예측 Ex. 덥다/춥다
- 회귀는 연속된 값으로 예측 Ex. 30.5도, 3.5도
- 분류에는 이진분류/다중분류 로 나뉨
--
- 머신러닝 모델 학습에 가장 큰 영향을 주는 것은 데이터.
- 이 데이터에서 충분히 특징을 찾아내지 못하고 머신러닝 모델을 학습할 경우 모델이 과소적합, underfitting 되기 쉬움
- 필요 이상의 특징으로 학습할 경우,머신러닝 모델이 학습데이터에서만 높은 정확도를 가지는 경우, 과대적합, overfitting이 되기 쉬움
- 조기 종료 early stopping 및 드롭아웃 drop out 을 이용해 과대적합을 피할 수 있음
- 최적의 모델은 분산과 편향이 균형된 모델
혼동 행렬, confusion matrix
모델의 성능을 평가할 때 사용되는 지표
- 정확도 accurancy는 모델이 입력된 데이터에 대해 얼마나 정확하게 예측하는지?로, TP값을 지표의 모든 값으로 나누면 된다. Ex. 0.78
- 정밀도 precision은 모델의 예측값이 얼마나 정확하게 예측됐는가?를 나타내는 지표
- 재현율 recall은 실제값 중에서 모델이 검출한 실제값의 비율을 나타내는 지표
- 정밀도와 재현율을 둘 다 사용하는 것을 F1 score, 좀 더 나은 성능 평가 비교가 가능
🚀 결론
✅ 머신러닝 모델을 만들 때, "데이터 + 알고리즘"이 중요!
✅ 모델을 학습시키고, 검증해서 성능이 좋은 모델을 만드는 게 목표!
✅ KNN 같은 알고리즘을 사용해서 데이터 기반으로 학습 & 예측! 😎
k-최근접 이웃, K-Nearest Neighbor, kNN
- 지도학습 알고리즘
- kNN 알고리즘은 이해하기 쉬우나, 다른 알고리즘에 비해서 연산 속도가 느리다는 단점이 있다.
- kNN의 조절 가능한 변수는 오직 하나, 살펴볼 이웃의 개수 (k)이다.
- k의 개수에 따라 모델의 예측값도 달라지므로 예측값이 가장 높은 최적의 k를 찾는 것이 상당히 중요하다.
서포트 벡터 머신, SVM
- 지도학습 알고리즘
- 결정 경계 : 서로 다른 분류값을 결정하는 경계 Ex. 경계 위는 강북, 아래는 강남
- 서포트 벡터 : 결정 경계를 만드는 데 영향을 주는 최전방 데이터 포인트
- 마진 : 결정경계와 서포트 벡터 사이의 거리
- SVM의 핵심은 주어진 데이터 분포 속에서 결정 경계를 찾아내는 것
- 2차원일시 > 두 개의 데이터 집합을 가로지르는 선을
- 3차원일시 > 두 개의 데이터 집합을 가로지르는 초평면을
- 저차원( Ex. 1차원 ) 데이터를 고차원( Ex. 2차원 ) 데이터로 옮겨주는 함수를 매핑 함수 라고 한다.
- 그러나 계산량이 너무 많아서 잘 안사용함 이를 대체하는 것이 바로
- 커널 트릭, kernel trick : 저차원에서 결정 경계를 찾지 못할 때 고차원으로 데이터를 옮겨서 결정 경계를 찾는 방법
'**Autonomous driving tech. > *Deep-Learning' 카테고리의 다른 글
[Deep-Learning] 02 (0) | 2025.03.04 |
---|