- Scikit-learn에서 Scaling은 데이터의 값 범위를 일정한 범위로 조정하거나 특징들 간의 크기 차이를 조정하는 과정이다.
- scale 조정 기법 중 가장 간단한 방법이, min-max scaling
- StandardScaler 함수는 데이터를 평균이 0, 표준편차가 1인 형태로 변환해주는 함수다.
- 이때, 값이 0과 1사이에 무조건 들어와야하는 것은 아니며, 가우시안 분포를 따른다고 할 때, 저 범위를 넘어가는 수도 충분히 존재할 수 있다. 그러나 왠만한 값들은 저 범위안에 들어간다
- *아웃라이어, Outlier : 전체 데이터의 흐름에서 벗어난 튀는 값을 말한다. 이상치라고도 한다.
- Z-score : 데이터가 평균에서 얼마나 떨어져 있는지를 "표준편차 단위"로 나타낸 값
- Z = 0 평균과 같음
- Z = 1 평균보다 1표준편차 큼
- 일반적으로 Z점수가 +3 -3이상이면 outlier로 간주하는 경우가 많다.
- *전처리 과정 : 머신러닝에서 사용되는 용어로, 모델 훈련에 사용될 데이터를 더 효과적으로 만들기 위해 수행하는 일련의 단계를 말한다. 쉽게 말해, 데이터를 정제하고 변환하는 과정이라고 생각하면된다. 이러한 전처리 과정을 하는 이유는 실제 데이터는 불완전하고, 노이즈가 많으며 일관성이 없기 때문이다. 전처리의 예시로는,
- Data Cleaning, 데이터 정제
- Outlier Handling : Outlier를 제거함. 제거하는 방식의 ex. Z-score 기반 제거
- Data Transformation, 데이터 변환
- Scailing, ex. Min-Max scailing
- Nomalization
- Data Reduction, 데이터 축소
- Dimiensionality Reduction, ex. PCA, principal component analysis 주성분분석
- Data Cleaning, 데이터 정제
'**Autonomous driving tech. > *Machine-Learning' 카테고리의 다른 글
[Machine Learning] norm, normalization (0) | 2025.04.11 |
---|---|
[Deep-Learning] 05 Identity, Diagonal, Transpose Matrix, Logistic Regression (0) | 2025.03.13 |
[Deep-Learning] 04 Tensor (0) | 2025.03.11 |
[Deep-Learning] 03 Loss Function, Optimization (0) | 2025.03.10 |
[Deep-Learning] 02 (0) | 2025.03.04 |