**Autonomous driving tech./*Machine-Learning

Autonmous Car-[강화학습]

2wnswoo 2025. 5. 14. 21:16

상태의 가치 추정을 위해 얻은 보상 값을 다루는 방식에 따라 구분

- 최초 접촉, first-visit 방식

  • 에이전트가 특정 상태에 처음 도달했을 때의 보상만을 가치 평가에 사용하는 방식, 첫 방문 보상만 반영함
  • 에이전트가 게임을 진행하면서 처음으로 상태 s에 도달했을 때부터 종료 시점까지의 보상만 누적하여 상태 s의 가치를 추정
  • 이후 게임에서 상태 s에 다시 도달하더라도, 해당 게임 내에서 처음 방문한 시점의 보상만 반영

- 모든 접촉, every-visit 방식

  • 에이전트가 특정 상태에 도달할 때마다 모든 방문에 대해 보상을 누적하여 가치 평가에 사용하는 방식
  • 에이전트가 상태 s에 모든 도달 시점다의 보상을 활용하여 평균값으로 상태 s의 가치를 추정

 

많은 경험을 통해 가치를 추정하는 방식이, 몬테카를로 방법론이다!

 

몬테카를로 기법

더 많은 에피소드를 진행할수록, * 대수의 법칙, Law of large numbers 따름
* 많이 해보면 결과가 진짜 평균에 가까워진다는 뜻

* 표본의 수가 많아질수록 그 평균은 모평균에 가까워진다

시간차 기법, Temporal Difference, TD