**Autonomous driving tech./*Machine-Learning

[강화학습] TD, MC 기법 비교

2wnswoo 2025. 7. 2. 18:46

MC(Monte Carlo) 기법

  • 에피소드 전체가 종료된 후 데이터를 한꺼번에 활용하므로, 에피소드가 명확히 정의된 환경에서 효과적
  • > 에피소드가 불완전 종료되거나, 연속적인 상황에서 적용하기 어려움
    • Q. 연속적인 상황무엇인가??
    • A. 명확한 에피소드 끝지점이 없는 것, 끝이 안남. e.g. 로봇이 종료를 하지 않고 계속 돌아다님.
  • 에피소드가 끝난 후에 얻은, 실제 보상의 평균을 통해 기대 보상을 추정하므로 추정치가 무편향
    • 실제 보상 분포를 그대로 반영하기 때문에 예상 보상의 편향이 없다.

TD(Temporal Difference) 기법

  • 반면, 다음 상태의 추정된 가치를 기반으로 보상을 업데이트하므로 약간의 편향이 발생 가능함
  • 그러나, 이 편향은 대부분의 환경에서 학습의 효율성을 높이는데 기여함

분산측면에서? MC, TD 기법 비교

MC 기법

  • 전체 에피소드 결과를 기반으로 가치 함수를 갱신하므로, 분산이 크다.
  • 다양한 시나리오에 따른 전체 보상 합계가 학습에 반영되므로, 변동 폭이 클 수 있다.

TD 기법

    • 단계별로 점진적인 업데이트 수행하므로, 매 단계의 작은 변화에 따라 값이 조정되어 분산이 작다.
    • 비교적 안정적 학습 가능

 

 

학습속도 측면에서? 비교

MC 기법: 

에피소드가 끝날 때까지 기다린 후 한 번에 업데이트하므로, 학습이 느림

 

TD 기법:

각 시간 단계마다 업데이트 하기 때문에 더 빠르게 학습이 가능하다.

> 이것은 장점임. 각 단계에서 업데이트하므로, 빠른 피드백이 가능해짐. 정책, 가치 함수를 신속하게 개선 가능

 

사용 가능 시나리오 측면에서? 비교

MC 기법: 

에피소드가 명확히 구분되는 환경에서 적용이 용이

e.g. 시작과 끝이 명확한 게임이나 특정 작업을 반복하는 시나리오에서 적합

 

TD 기법:

에피소드가 명확하지 않는 연속적인 환경. 각 상태에서 실시간으로 업데이트가 필요한 상황.

e.g. 실시간 의사결정이 필요한 로봇, 변화하는 금융 거래 환경

 

정책 최적화 관점에서? 비교

MC 기법:

각 에피소드에서 얻은 실제 보상을 기준으로 정책을 갱신하므로, 보상을 최대화 하기 위한 정책 최적화에 적합함

 

TD 기법:

매 단계마다 갱신을 통해 점진적으로 정책을 최적화 

실시간으로 정책을 개선 할 수 있으므로, 동적 최적화 라고도 함