Autonmous Car-[강화학습]

**Autonomous driving tech./*Machine-Learning

Autonmous Car-[강화학습]

2wnswoo 2025. 5. 14. 21:16

상태의 가치 추정을 위해 얻은 보상 값을 다루는 방식에 따라 구분

- 최초 접촉, first-visit 방식

에이전트가 특정 상태에 처음 도달했을 때의 보상만을 가치 평가에 사용하는 방식, 첫 방문 보상만 반영함
에이전트가 게임을 진행하면서 처음으로 상태 s에 도달했을 때부터 종료 시점까지의 보상만 누적하여 상태 s의 가치를 추정
이후 게임에서 상태 s에 다시 도달하더라도, 해당 게임 내에서 처음 방문한 시점의 보상만 반영

- 모든 접촉, every-visit 방식

에이전트가 특정 상태에 도달할 때마다 모든 방문에 대해 보상을 누적하여 가치 평가에 사용하는 방식
에이전트가 상태 s에 모든 도달 시점다의 보상을 활용하여 평균값으로 상태 s의 가치를 추정

많은 경험을 통해 가치를 추정하는 방식이, 몬테카를로 방법론이다!

몬테카를로 기법

더 많은 에피소드를 진행할수록, * 대수의 법칙, Law of large numbers 따름
* 많이 해보면 결과가 진짜 평균에 가까워진다는 뜻

* 표본의 수가 많아질수록 그 평균은 모평균에 가까워진다

시간차 기법, Temporal Difference, TD

저작자표시 비영리 변경금지 (새창열림)

'**Autonomous driving tech. > *Machine-Learning' 카테고리의 다른 글

[강화학습] TD, MC 기법 비교 (0)	2025.07.02
Autonomous Car-[강화학습] (0)	2025.05.16
Autonomous Car-[강화학습] 벨만 방정식(이해 완전히 안됨), 몬테카를로 (0)	2025.05.13
Autonomous Car-[강화학습] MDP가 있을때 없을때, 몬테카를로, TD방법 (0)	2025.05.10
Autonomous Car-[강화학습] 마르코프 결정 프로세스, MDP (0)	2025.05.08

현재글Autonmous Car-[강화학습]

2wnswoo 님의 블로그

Be a first mover, not a fast follower

티스토리챌린지, 오블완, 우,

Today :
Yesterday :

티스토리툴바