**Autonomous driving tech./*Machine-Learning

[Machine Learning] Scaling, Z-score, 전처리 과정

2wnswoo 2025. 4. 11. 00:31

  • Scikit-learn에서 Scaling데이터의 값 범위를 일정한 범위로 조정하거나 특징들 간의 크기 차이를 조정하는 과정이다.
    • scale 조정 기법 중 가장 간단한 방법이, min-max scaling 
  • StandardScaler 함수는 데이터를 평균이 0, 표준편차가 1인 형태로 변환해주는 함수다.
    • 이때, 값이 0과 1사이에 무조건 들어와야하는 것은 아니며, 가우시안 분포를 따른다고 할 때, 저 범위를 넘어가는 수도 충분히 존재할 수 있다. 그러나 왠만한 값들은 저 범위안에 들어간다
    • *아웃라이어, Outlier : 전체 데이터의 흐름에서 벗어난 튀는 값을 말한다. 이상치라고도 한다.
  • Z-score : 데이터가 평균에서 얼마나 떨어져 있는지를 "표준편차 단위"로 나타낸 값
    • Z = 0 평균과 같음
    • Z = 1 평균보다 1표준편차 큼
    • 일반적으로 Z점수가 +3 -3이상이면 outlier로 간주하는 경우가 많다.
  • *전처리 과정 : 머신러닝에서 사용되는 용어로, 모델 훈련에 사용될 데이터를 더 효과적으로 만들기 위해 수행하는 일련의 단계를 말한다. 쉽게 말해, 데이터를 정제하고 변환하는 과정이라고 생각하면된다. 이러한 전처리 과정을 하는 이유는 실제 데이터는 불완전하고, 노이즈가 많으며 일관성이 없기 때문이다. 전처리의 예시로는,
    • Data Cleaning, 데이터 정제
      • Outlier Handling : Outlier를 제거함. 제거하는 방식의 ex. Z-score 기반 제거
    • Data Transformation, 데이터 변환
      • Scailing, ex. Min-Max scailing
      • Nomalization
    • Data Reduction, 데이터 축소
      • Dimiensionality Reduction, ex. PCA, principal component analysis 주성분분석