MC(Monte Carlo) 기법
- 에피소드 전체가 종료된 후 데이터를 한꺼번에 활용하므로, 에피소드가 명확히 정의된 환경에서 효과적
- > 에피소드가 불완전 종료되거나, 연속적인 상황에서 적용하기 어려움
- Q. 연속적인 상황이 무엇인가??
- A. 명확한 에피소드 끝지점이 없는 것, 끝이 안남. e.g. 로봇이 종료를 하지 않고 계속 돌아다님.
- 에피소드가 끝난 후에 얻은, 실제 보상의 평균을 통해 기대 보상을 추정하므로 추정치가 무편향적
- 실제 보상 분포를 그대로 반영하기 때문에 예상 보상의 편향이 없다.
TD(Temporal Difference) 기법
- 반면, 다음 상태의 추정된 가치를 기반으로 보상을 업데이트하므로 약간의 편향이 발생 가능함
- 그러나, 이 편향은 대부분의 환경에서 학습의 효율성을 높이는데 기여함
분산측면에서? MC, TD 기법 비교
MC 기법
- 전체 에피소드 결과를 기반으로 가치 함수를 갱신하므로, 분산이 크다.
- 다양한 시나리오에 따른 전체 보상 합계가 학습에 반영되므로, 변동 폭이 클 수 있다.
TD 기법
- 단계별로 점진적인 업데이트 수행하므로, 매 단계의 작은 변화에 따라 값이 조정되어 분산이 작다.
- 비교적 안정적 학습 가능
학습속도 측면에서? 비교
MC 기법:
에피소드가 끝날 때까지 기다린 후 한 번에 업데이트하므로, 학습이 느림
TD 기법:
각 시간 단계마다 업데이트 하기 때문에 더 빠르게 학습이 가능하다.
> 이것은 장점임. 각 단계에서 업데이트하므로, 빠른 피드백이 가능해짐. 정책, 가치 함수를 신속하게 개선 가능
사용 가능 시나리오 측면에서? 비교
MC 기법:
에피소드가 명확히 구분되는 환경에서 적용이 용이
e.g. 시작과 끝이 명확한 게임이나 특정 작업을 반복하는 시나리오에서 적합
TD 기법:
에피소드가 명확하지 않는 연속적인 환경. 각 상태에서 실시간으로 업데이트가 필요한 상황.
e.g. 실시간 의사결정이 필요한 로봇, 변화하는 금융 거래 환경
정책 최적화 관점에서? 비교
MC 기법:
각 에피소드에서 얻은 실제 보상을 기준으로 정책을 갱신하므로, 보상을 최대화 하기 위한 정책 최적화에 적합함
TD 기법:
매 단계마다 갱신을 통해 점진적으로 정책을 최적화
실시간으로 정책을 개선 할 수 있으므로, 동적 최적화 라고도 함
'**Autonomous driving tech. > *Machine-Learning' 카테고리의 다른 글
[강화학습] Q-learning (0) | 2025.07.06 |
---|---|
[강화학습] SARSA 알고리즘 (0) | 2025.07.04 |
Autonomous Car-[강화학습] (0) | 2025.05.16 |
Autonmous Car-[강화학습] (0) | 2025.05.14 |
Autonomous Car-[강화학습] 벨만 방정식(이해 완전히 안됨), 몬테카를로 (0) | 2025.05.13 |