- MC 기법 : 상태 s에서 시작하여 에피소드가 종료될 때까지 누적된 보상의 총합인 리턴 을 기반으로 상태 가지 함수를 업데이트한다.
'**Autonomous driving tech. > *Machine-Learning' 카테고리의 다른 글
Autonmous Car-[강화학습] (0) | 2025.05.14 |
---|---|
Autonomous Car-[강화학습] 벨만 방정식(이해 완전히 안됨), 몬테카를로 (0) | 2025.05.13 |
Autonomous Car-[강화학습] MDP가 있을때 없을때, 몬테카를로, TD방법 (0) | 2025.05.10 |
Autonomous Car-[강화학습] 마르코프 결정 프로세스, MDP (0) | 2025.05.08 |
Autonomous Car-[강화학습] 신뢰상한행동선택 Upper Confidence Board, 활용과 탐색 균형 맞춤 알고리즘 (0) | 2025.05.08 |