**Autonomous driving tech./*Machine-Learning 7

[Machine Learning] Scaling, Z-score, 전처리 과정

Scikit-learn에서 Scaling은 데이터의 값 범위를 일정한 범위로 조정하거나 특징들 간의 크기 차이를 조정하는 과정이다.scale 조정 기법 중 가장 간단한 방법이, min-max scaling StandardScaler 함수는 데이터를 평균이 0, 표준편차가 1인 형태로 변환해주는 함수다.이때, 값이 0과 1사이에 무조건 들어와야하는 것은 아니며, 가우시안 분포를 따른다고 할 때, 저 범위를 넘어가는 수도 충분히 존재할 수 있다. 그러나 왠만한 값들은 저 범위안에 들어간다*아웃라이어, Outlier : 전체 데이터의 흐름에서 벗어난 튀는 값을 말한다. 이상치라고도 한다.Z-score : 데이터가 평균에서 얼마나 떨어져 있는지를 "표준편차 단위"로 나타낸 값Z = 0 평균과 같음Z = 1 평균..

[Deep-Learning] 05 Identity, Diagonal, Transpose Matrix, Logistic Regression

Identity Matrix 단위행렬 대각선 요소는 모두 1이고 나머지는 0으로 채워진 행렬을 Identity Matrix, 단위행렬이라고 한다. print(np.identity(5)) #Numpy에서는 identify() 함수를 이용print(tf.eye(5))      #TensorFlow에서는 eye() 함수를 이용*Transpose Matrix, 전치 행렬 : 행과 열을 뒤바꾼 행렬*Symmetric : 대칭적인 머신러닝에서 대용량의 데이터를 다루는 경우가 흔한데, 이런 데이터의 원소 대부분은 0이다.Sparse Matrix, 희소 행렬은 대부분의 원소가 0인 행렬을 의미한다. Diagonal Matrix, 대각 행렬 대각선에만 값이 있고, 나머지는 모두 0인 행렬

[Deep-Learning] 04 Tensor

*MNIST 데이터셋 : 0~9까지 손으로 적은 손글씨 데이터셋*Sparse : 희소한, 드문*Aggregation : 집합,집계로, 데이터 분석에서 사용되는 용어로 여러 데이터를 합쳐 평균, 합계, 최대값을 구하는 과정을 말한다.Tensor 수학에서 다차원 값을 표현하는 개념 = n차원의 행렬행렬은 행과 열 2개의 축을 가진 2차원 Tensor백터는 1차원 Tensor

[Deep-Learning] 03 Loss Function, Optimization

딥러닝 모델에서 사용하는 대표적 비선형 활성화 함수 : Sigmoid TanH, ReLUForward Propagation, 순전파 딥러닝에 값을 입력해서 출력값 ( 예측값, y_hat ) 을 얻는 과정 Loss Function, 손실함수 출력값, Predeicted Value 과 정답값, Ground Truth 의 차이를 계산하는 함수보통 Regression 문제에서는 평균제곱오차 Mean Squared Error, MSEclassification 문제에서는 크로스 엔트로피를 사용한다.가중치, 편향값을 조절해서 손실함수의 값을 최저로 만드는 과정을 최적화( Optimization ) 과정이라고 함.손실함수의 값을 최소로 줄이는 최적화 과정에서 사용되는 알고리즘 : SGD, BGD, Mini-Batch ..

[Deep-Learning] 02

의사결정 트리, decision tree지도학습 알고리즘Ex. 스무고개 놀이엔트로피 : 정답에 대한 불확실성을 수치화 한 것정보 이득 = 질문 전의 엔트로피 - 질문 후의 엔트로피단점은, 쉽게 overffiting 된다는 것이다.나이브 베이즈 분류 알고리즘, Naive bayes *naive = 단순한데이터를 나이브하게 독립적인 사건으로 가정하고, 이 독립 사건들을 베이즈 이론에 대입시켜 가장 높은 확률의 레이블로 분류를 실행하는 알고리즘이다. *이산적이다 : 연속적이지 않고 끊어져 있는 상태를 의미 Ex. 1, 3, 7 같은 개별적인 숫자 📌 앙상블 기법 (Ensemble Learning)여러 개의 모델을 조합하여 개별 모델보다 더 나은 성능을 내는 방법배깅(Bagging, Bootstrap Aggr..

[Deep-Learning] 01, k-NN, SVM

지도학습 Supervised learning학습시 데이터에 대한 레이블( 정답 )을 함께 부여하는 학습 방식정답값 = 레이블, 실제값, 타깃, y값예측값 = 분류값, y hat비지도 학습 Unsupervised learning학습시 레이블 없이 데이터만 필요함--분류와 회귀데이터가 입력됐을 때 분류는 분리된 값으로 예측 Ex. 덥다/춥다회귀는 연속된 값으로 예측 Ex. 30.5도, 3.5도분류에는 이진분류/다중분류 로 나뉨--머신러닝 모델 학습에 가장 큰 영향을 주는 것은 데이터.이 데이터에서 충분히 특징을 찾아내지 못하고 머신러닝 모델을 학습할 경우 모델이 과소적합, underfitting 되기 쉬움필요 이상의 특징으로 학습할 경우,머신러닝 모델이 학습데이터에서만 높은 정확도를 가지는 경우, 과대적합,..