[ADsP] 05_정형 데이터 마이닝

DataAnalysis

[ADsP] 05_정형 데이터 마이닝

2wnswoo 2024. 10. 8. 22:44

- 데이터 마이닝 개요

● 데이터 마이닝

- 방대한 데이터 속에서 새로운 규칙, 패턴을 찾고 예측을 수행하는 분야

● 데이터 마이닝의 유형

(1) 지도학습 : 정답이 있는 데이터를 활용

- 인공신경망, 의사결정트리, 회귀분석, 로지스틱회귀

(2) 비지도학습 : 정답이 없는 데이터들 사이의 규칙을 파악

- 군집분석, SOM, 차원축소, 연관분석

● 과대적합과 과소적합

(1) 과대적합 : 모델이 지나치게 데이터를 학습하여 매우 복잡해진 모델

(2) 과소적합 : 데이터를 충분히 설명하지 못하는 단순한 모델

● 데이터 분할

- 과대적합과 과소적합을 방지하고, 데이터가 불균형한 문제를 해결하기 위해 사용

(1) 분할된 데이터 셋 종류

1) 훈련용( Training Set ) : 모델을 학습하는데 활용 ( 50% )

2) 검증용( Validation Set ) : 모델의 과대,과소 적합을 조정하는데 활용 ( 30% )

3) 평가용 ( Test Set ) : 모델을 평가하는데 활용 ( 20% )

(2) 분할된 데이터의 학습 및 검증 방법

1) 홀드아웃 : 훈련용과 평가용 2개의 셋으로 분할

2) K-fold 교차검증 : 데이터를 k개의 집단으로 구분하여 k-1개 학습, 나머지 1개로 평가

3) LOOCV : 1개의 데이터로만 평가, 나머지로 학습

4) 부트스트래핑 : 복원주를 활용하여 데이터 셋을 생성, 데이터 부족, 불균형 문제 해소

- 분류분석

● 로지스틱 회귀분석

- 종속변수가 범주형 데이터를 대상으로 성공과 실패 2개의 집단을 분류하는 문제에 활용

(1) 오즈( Odds )

- 성공할 확률과 실패할 확률의 비

- Odds = 성공확률(P) / 실패확률(1-P)

(2) 로짓( logit ) 변환

- 오즈에 자연로그( 자연상수 e가 밑 )를 취하는 작업

- 독립변수 X가 n증가하면 확률이 e^n 만큼 증가

● 의사결정트리( Decision Tree )

- 여러 개의 분리 기준으로 최종 분류 값을 찾는 방법

(1) 분류( 범주형 )에서의 분할 방법

1) CHAID 알고리즘 : 카이제곱 통계량

2) CART 알고리즘 : 지니지수 활용

3) C4.5/C5.0 알고리즘 : 엔트로피지수 활용

(2) 회귀( 연속형 )에서의 분할 방법

1) CHAID 알고리즘 : ANOVA F통계량

2) CART 알고리즘 : 분산감소량

(2) 학습간 규제

1) 정지규칙

- 분리를 더 이상 수행하지 않고 나무의 성장을 멈춤

2) 가지치기

- 일부 가지를 제거하여 과대적합을 방지

● 앙상블

- 여러 개의 예측 모형들을 조합하는 기법으로 전체적인 분산을 감소시켜 성능 향상이 가능

(1) 보팅( Voting )

- 다수결 방식으로 최종 모델을 선택

(2) 배깅( Bagging )

- 복원추출에 기반을 둔 부트스트랩을 생성하여 모델을 학습 후에 보팅으로 결합

- 복원추출을 무한히 반복할 때 특정 하나의 데이터가 선택되지 않을 확률 : 36.8%

(3) 부스팅( Boosting )

- 잘못된 분류 데이터에 큰 가중치를 주는 방법, 이상치에 민감

- 종류 : AdaBoost, GBM, XGBoost, Light GBM

(4) 랜덤포레스트

- 베깅에 의사결정트리를 추가하는 기법으로 성능이 좋고 이상치에 강한 모델

● 인공신경망

- 인간의 뇌 구조를 모방한 퍼셉트론을 활용한 추론모델

(1) 구조

1) 단층 신경망 : 입력층과 출력층으로 구성 ( 단일 퍼셉트론 )

2) 다층 신경망 : 입력층과 출력층 사이에 1개 이상의 은닉층 보유 ( 다층 퍼셉트론 )

- 은닉층 수는 사용자가 직접 설정

(2) 활성화 함수

- 인공신경망의 선형성을 극복

1) 시그모이드 함수

- 0 ~ 1 사이의 확률 값을 가지며, 로지스틱 회귀 분석과 유사

2) 소프트맥스 함수

- 출력 값이 여러 개로 주어지고 목표 데이터가 다범주인 경우 활용

3) 하이퍼볼릭 탄젠트( Tanh ) 함수

- -1 ~ 1 사이 값을 가지며, 시그모이드 함수의 최적화 지연을 해결

4) ReLU 함수

- 기울기 소실문제를 극복, max(0,x)

(3) 학습 방법

1) 순전파( 파드포워드 ) : 정보가 전방으로 전달

2) 역전파 알고리즘 : 가중치를 수정하여 오차를 줄임

3) 경사하강법 : 경사의 내리막길로 이동하여 오차가 최소가 되는 최적의 해를 찾는 기법

4) 기울기 소실 문제

- 다수의 은닉층에서 시그모이드 함수 사용 시, 학습이 제대로 되지 않는 문제

● 기타 분류모델

(1) KNN : 거리기반으로 이웃에 많은 데이터가 포함되어 있는 범주로 분류

(2) 나이브베이즈 : 나이브( 독립 ), 베이즈 이론을 기반으로 범주에 속할 확률 계산

(3) SVM : 선형이나 비선형 분류, 회귀 등에서 활용할 수 있는 다목적 모델

● 분류모델 평가지표

(1) 오분류표

→ 예측과 실제가 같으면 TRUE, 예측이 TRUE면 POSITIVE

(2) 평가지표

- 재현율( Recall )은 민감도( Sensitivity ), TP Rate, Hit Rate라고도 함

- F-1 Score는 Precison과 Recall의 조화평균

- Precision과 Recall은 Trade-Off 관계

(3) ROC 커브

- 가로축을 1-특이도( FPR ), 세로축을 민감도( TPR )로 두어 시각화한 그래프

(4) 이익도표( Lift chart )

- 임의로 나눈 각 등급별로 반응검출율, 반응률, 리프트 등의 정보를 산출하여 나타내는 도표

- 형상도 곡선 : 이익도표를 시각화한 곡선

- 군집분석

● 군집분석

- 비지도 학습으로 데이터들 간 거리나 유사성을 기준으로 군집을 나누는 분석

● 거리속도

(1) 연속형 변수

- 유클리디안 거리 : 두 점 사이의 직선 거리

- 맨하튼 거리 : 각 변수들의 차이의 단순 합

- 체비셰프 거리 : 변수 거리 차 중 최댓값

- 표준화 거리 : 유클리디안 거리를 표준편차로 나눔

- 민코우스키 거리 : 유클리드, 맨하튼 거리를 일반화한 거리

- 마할라노비스 거리 : 표준화 거리에서 변수의 상관성 고려

(2) 범주형 변수

- 자카드 유사도, 코사인 유사도

● 실루엣 개수

- 군집분석을 평가하는 지표로서 같은 군집간 가깝고, 다른 군집간 먼 정도를 판단 ( -1 ~ 1 )

● 계층적 군집분석

(1) 거리측정 방법

1) 최단 연결법( 단일 연결법 ) : 군집간 가장 가까운 데이터

2) 최장 연결법( 완전 연결법 ) : 군집간 가장 먼 데이터

3) 평균 연결법 : 군집의 모든 데이터들의 평균

4) 중심 연결법 : 두 군집의 중심

5) 와드 연결법 : 두 군집의 편차 제곱합이 최소가 되는 위치

(2) 덴드로그램

- 계층적 군집화를 시각적으로 나타내는 Tree모양의 그래프

● K평균 군집화( K-means Clustering )

- 비계층적 군집화 방법으로 거리기반

(1) 특징

- 안정된 군집은 보장하나 최적의 보장은 어려움

- 한 번 군집에 속한 데이터는 중심점이 변경되면 군집이 변할 수 있음

(2) 과정

1) 군집의 개수 k개 설정

2) 초기 중심점 설정

3) 데이터들을 가장 가까운 군집에 할당

4) 데이터의 평균으로 중심점 재설정

5) 중심점 위치가 변하지 않을 때까지 3),4) 번 과정 반복

(3) K-medoids 군집화

- K평균 군집화의 이상치에 민감함을 대응하기 위한 군집방법

- 일반적으로 실현 된 것이 PAM( Partioning Around Medoid )

● 혼합분포군집

- EM 알고리즘 활용

(1) E-step

1단계) 초기 파리미터 값 임의 설정

2단계) 파라미터 값 활용하여 기댓값 계산

(2) M-Step

3단계) 기댓값으로부터 확률분포의 파라미터 값 추정

4단계) 2단계부터 반복 수행

● SOM( 자기 조직화 지도 )

- 차원축소와 군집화를 수행하여 고차원 데이터 시각화하는 기법

(1) 구성 : 은닉층 없이 입력층과 출력층으로만 구성

(2) 특징

- 인공신경망과 달리 순전파 방식만 사용

- 완전연결의 형태

- 경쟁층에 표시된 데이터는 다른 노드로 이동 가능

- 입력변수의 위치 관계를 그대로 보존

- 연관분석

● 연관분석

- 항목들간의 조건-결과로 이루어지는 패턴을 발견하는 기법 ( 장바구니 분석 )

(1) 특징

- 결과가 단순하고 분명 ( IF~THEN~ )

- 종목 수가 증가할수록 계산량이 기하급수적으로 증가

- Apriori 알고리즘을 활용하여 연관분석을 수행

(2) 순차패턴

: 연관분석에 시간 개념을 추가하여 품목과 시간에 대한 규칙 찾는 기법

● 연관분석의 지표

이 글은 IT의 답을 터득하다, 아답터님의 ADsP 2시간만에 완벽 정복하기 강의 내용을 옮겨 적은 글입니다

'DataAnalysis' 카테고리의 다른 글

[ADsP] 2과목 기출 유형 문제 (4)	2024.10.21
[ADsP] 1과목 기출 유형 문제 (8)	2024.10.18
[ADsP] 04_R기초와 데이터 마트 (2)	2024.10.04
[ADsP] 03_데이터분석 기획의 이해 (0)	2024.10.01
[ADsP] 02_데이터의 가치와 미래 (3)	2024.10.01

현재글[ADsP] 05_정형 데이터 마이닝

2wnswoo 님의 블로그

Be a first mover, not a fast follower

티스토리챌린지, 오블완,

Today :
Yesterday :

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

2wnswoo 님의 블로그