- 딥러닝 모델에서 사용하는 대표적 비선형 활성화 함수 : Sigmoid TanH, ReLU
Forward Propagation, 순전파
딥러닝에 값을 입력해서 출력값 ( 예측값, y_hat ) 을 얻는 과정
Loss Function, 손실함수
출력값, Predeicted Value 과 정답값, Ground Truth 의 차이를 계산하는 함수
- 보통 Regression 문제에서는 평균제곱오차 Mean Squared Error, MSE
- classification 문제에서는 크로스 엔트로피를 사용한다.
- 가중치, 편향값을 조절해서 손실함수의 값을 최저로 만드는 과정을 최적화( Optimization ) 과정이라고 함.
- 손실함수의 값을 최소로 줄이는 최적화 과정에서 사용되는 알고리즘 : SGD, BGD, Mini-Batch GD
- Stochastic Gradient Descent, SGD : 확률적 경사 하강법으로, 한 개의 샘플을 사용하여 가중치 업데이트 > 빠르지만 불안정함
- *Stochastic : 확률적
- Batch Gradient Descent, BGD : 배치 경사 하강법으로, 전체 데이터 사용하여 한 번에 가중치를 업데이트함 > 연산량 많아서 느리지만 안정적임
- Mini-Batch GD : SGD와 BGD의 중간 방식으로 딥러닝에서 가장 많이 사용됨
- >> 딥러닝 모델에 따라 알맞은 최적화 알고리즘을 찾는 것은 딥러닝 개발자의 역할
모멘텀, Momentum : 공을 언덕에서 굴렸을 때 위치 에너지와 운동에너지의 영향으로 공이 가던 방향으로 힘을 받아 최초 로컬 미니멈에 머무르지 않고, 더 낮은 로컬 미니멈까지 공이 굴러갈 수 있다는 이론
학습률, Learning rate
- 학습률을 크게 설정하면 로컬 미니멈으로 수렴하지 않을 수 있고, 너무 작게 설정하면 학습 시간이 상당히 오래 걸릴 수 있음
- 따라서 최초 무작위로 설정된 매개변수 위치에서는 로컬 미니멈에서 멀리 있을 확률이 크므로 Learning rate를 크게 설정해서 학습 속도를 증진시키고, 모델이 어느 정도 학습되면 매개변수가 로컬 미니멈에 수렴하도록 학습률을 작게 조절하면 효율적 학습이 가능하다.
- 중간에 Learning rate를 조정하는 방식을 decay.
--
피쳐맵을 줄이는 Pooling 과정을 해서 얻는 이점
01. 계산에 사용 될 파라미터의 개수가 줄어들어 계산 속도가 빨라짐
02. Overfitting 가능성을 줄여줌
CNN에서 제로 패딩, Zero Padding 하는 이유는?
행렬의 사이즈가 작아지면, 작아진만큼 정보손실이 있는데 Feature map 사이즈를 그대로 유지시킬 수 있으므로
CNN에서의 각 요소들의 역할
- CONV( Convolution Operation, 컨볼루션 연산 ) : 입력 데이터에서 중요한 Featrue를 추출하는 레이어
- Pooling : 행렬 ( Feature map )의 크기를 줄여서 연산량을 줄이고 Overfitting 가능성을 줄인다.
- 활성화 함수 Ex. ReLU : 역할은, 비선형성을 추가하는 것
- 비선형성을 추가한다. : 딥러닝 모델이 단순한 직선( 선형 관계 )만 배우는 게 아니라 곡선( 복잡한 패턴 )도 학습할 수 있도록 만드는 것
- FC( Fully Connected layer ) : 추출된 Feature를 가지고 최종적인 예측인 classification을 수행하는 레이어
- 💡 CNN의 Fully Connected(FC) Layer = MLP(다층 퍼셉트론)
- CNN의 FC Layer는 사실상 MLP 구조
- Flatten한 Feature를 MLP에 넘기고, classification을 수행하는데, 이걸 FC Layer라고 함.
LSTM, Long Short-Term Memory
과거 정보를 오랫동안 기억하면서도, 불필요한 정보는 제거할 수 있는 능력을 가지고 있다.
어디에 사용되는가?
- 보행자의 움직임 예측
- 차량 주행 궤적 예측
'**Autonomous driving tech. > *Machine-Learning' 카테고리의 다른 글
[Machine Learning] Scaling, Z-score, 전처리 과정 (0) | 2025.04.11 |
---|---|
[Deep-Learning] 05 Identity, Diagonal, Transpose Matrix, Logistic Regression (0) | 2025.03.13 |
[Deep-Learning] 04 Tensor (0) | 2025.03.11 |
[Deep-Learning] 02 (0) | 2025.03.04 |
[Deep-Learning] 01, k-NN, SVM (0) | 2025.03.03 |