[강화학습] TD, MC 기법 비교

**Autonomous driving tech./*Machine-Learning

[강화학습] TD, MC 기법 비교

2wnswoo 2025. 7. 2. 18:46

MC(Monte Carlo) 기법

에피소드 전체가 종료된 후 데이터를 한꺼번에 활용하므로, 에피소드가 명확히 정의된 환경에서 효과적
> 에피소드가 불완전 종료되거나, 연속적인 상황에서 적용하기 어려움
- Q. 연속적인 상황이 무엇인가??
- A. 명확한 에피소드 끝지점이 없는 것, 끝이 안남. e.g. 로봇이 종료를 하지 않고 계속 돌아다님.
에피소드가 끝난 후에 얻은, 실제 보상의 평균을 통해 기대 보상을 추정하므로 추정치가 무편향적
- 실제 보상 분포를 그대로 반영하기 때문에 예상 보상의 편향이 없다.

TD(Temporal Difference) 기법

반면, 다음 상태의 추정된 가치를 기반으로 보상을 업데이트하므로 약간의 편향이 발생 가능함
그러나, 이 편향은 대부분의 환경에서 학습의 효율성을 높이는데 기여함

분산측면에서? MC, TD 기법 비교

MC 기법

전체 에피소드 결과를 기반으로 가치 함수를 갱신하므로, 분산이 크다.
다양한 시나리오에 따른 전체 보상 합계가 학습에 반영되므로, 변동 폭이 클 수 있다.

TD 기법

단계별로 점진적인 업데이트 수행하므로, 매 단계의 작은 변화에 따라 값이 조정되어 분산이 작다.
비교적 안정적 학습 가능

학습속도 측면에서? 비교

MC 기법:

에피소드가 끝날 때까지 기다린 후 한 번에 업데이트하므로, 학습이 느림

TD 기법:

각 시간 단계마다 업데이트 하기 때문에 더 빠르게 학습이 가능하다.

> 이것은 장점임. 각 단계에서 업데이트하므로, 빠른 피드백이 가능해짐. 정책, 가치 함수를 신속하게 개선 가능

사용 가능 시나리오 측면에서? 비교

MC 기법:

에피소드가 명확히 구분되는 환경에서 적용이 용이

e.g. 시작과 끝이 명확한 게임이나 특정 작업을 반복하는 시나리오에서 적합

TD 기법:

에피소드가 명확하지 않는 연속적인 환경. 각 상태에서 실시간으로 업데이트가 필요한 상황.

e.g. 실시간 의사결정이 필요한 로봇, 변화하는 금융 거래 환경

정책 최적화 관점에서? 비교

MC 기법:

각 에피소드에서 얻은 실제 보상을 기준으로 정책을 갱신하므로, 보상을 최대화 하기 위한 정책 최적화에 적합함

TD 기법:

매 단계마다 갱신을 통해 점진적으로 정책을 최적화

실시간으로 정책을 개선 할 수 있으므로, 동적 최적화 라고도 함

저작자표시 비영리 변경금지 (새창열림)

'**Autonomous driving tech. > *Machine-Learning' 카테고리의 다른 글

[강화학습] Q-learning (0)	2025.07.06
[강화학습] SARSA 알고리즘 (0)	2025.07.04
Autonomous Car-[강화학습] (0)	2025.05.16
Autonmous Car-[강화학습] (0)	2025.05.14
Autonomous Car-[강화학습] 벨만 방정식(이해 완전히 안됨), 몬테카를로 (0)	2025.05.13

현재글[강화학습] TD, MC 기법 비교

2wnswoo 님의 블로그

Be a first mover, not a fast follower

티스토리챌린지, 우, 오블완,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

2wnswoo 님의 블로그