상태의 가치 추정을 위해 얻은 보상 값을 다루는 방식에 따라 구분
- 최초 접촉, first-visit 방식
- 에이전트가 특정 상태에 처음 도달했을 때의 보상만을 가치 평가에 사용하는 방식, 첫 방문 보상만 반영함
- 에이전트가 게임을 진행하면서 처음으로 상태 s에 도달했을 때부터 종료 시점까지의 보상만 누적하여 상태 s의 가치를 추정
- 이후 게임에서 상태 s에 다시 도달하더라도, 해당 게임 내에서 처음 방문한 시점의 보상만 반영
- 모든 접촉, every-visit 방식
- 에이전트가 특정 상태에 도달할 때마다 모든 방문에 대해 보상을 누적하여 가치 평가에 사용하는 방식
- 에이전트가 상태 s에 모든 도달 시점다의 보상을 활용하여 평균값으로 상태 s의 가치를 추정
많은 경험을 통해 가치를 추정하는 방식이, 몬테카를로 방법론이다!
몬테카를로 기법
더 많은 에피소드를 진행할수록, * 대수의 법칙, Law of large numbers 따름
* 많이 해보면 결과가 진짜 평균에 가까워진다는 뜻
* 표본의 수가 많아질수록 그 평균은 모평균에 가까워진다
시간차 기법, Temporal Difference, TD
'**Autonomous driving tech. > *Machine-Learning' 카테고리의 다른 글
Autonomous Car-[강화학습] (0) | 2025.05.16 |
---|---|
Autonomous Car-[강화학습] 벨만 방정식(이해 완전히 안됨), 몬테카를로 (0) | 2025.05.13 |
Autonomous Car-[강화학습] MDP가 있을때 없을때, 몬테카를로, TD방법 (0) | 2025.05.10 |
Autonomous Car-[강화학습] 마르코프 결정 프로세스, MDP (0) | 2025.05.08 |
Autonomous Car-[강화학습] 신뢰상한행동선택 Upper Confidence Board, 활용과 탐색 균형 맞춤 알고리즘 (0) | 2025.05.08 |