Autonomous Car-[강화학습] 벨만 방정식(이해 완전히 안됨), 몬테카를로

**Autonomous driving tech./*Machine-Learning

2wnswoo 2025. 5. 13. 14:19

가치, Value를 계산할 때 벨만 방정식을 사용함
시점 t에서 value랑 t+1 value 사이의 관계를 다룸, 재귀함수 성격을 가짐
- *재귀함수 : 자기 자신을 호출하는 함수 ( e.g 피보나치 수열, 0,1,2,3,5,8.13 앞의 첫번째항과 두번째항을 계속해서 더하는 구조임 )
모델 프리, model free : MDP를 모를 때 학습하는 접근법
모델 기반, model-based : MDP를 알고 있을 때 학습하는 접근법 ( 경험에 의한 평균값으로 계산 )
벨만 기대 방정식 : 특정 정책을 따를 때 상태 가치를 다룸
벨만 최적 방정식 : 최적 정책을 바로 구하는 것이 목표
- 가능한 정책 중 가장 높은 가치를 제공하는 정책을 선택
최적의 정책을 찾기 위한 동적 프로그래밍 알고리즘 두 가지
- 1. 정책 반복법 : 정책가치평가 후 반복적으로 정책을 개선하여 최적의 정책에 수렴시키는 것, 장점은 작은 문제에서 직관적이고 안정적
- 2. 가치 반복법 :
모델 프리 학습 적용 이유
- 1. 환경 불확실성
- 2. 계산 복잡성 감소
- 3. 데이터 수집 비용이 적음
  - 데이터 수집이 어려운 상황에서, 적은 데이터량으로 경험을 통해 학습이 가능함
- 4. 복잡한 행동 공간
- 5. 모델 구축 실효성 문제

정리하면,

모델 프리학습이란? : 보상함수나 상태 전이 확률을 모르는 상태임에도 Agent가 환경과의 상호작용을 통해 ( = 탐색적 활동을 통해 ) 최적의 정책을 학습하는 방법

그리고,

모델프리학습에는 두 개로 나눌 수 있는데, 하나는 모델프리 가치 평가 방법과 모델프리 정책 최적화 방법으로 나눌 수 있고

모델프리 가치 평가에는 몬테카를로와 Temporal Difference TD 방법이 존재하고,

모델프리 정책 최적화에는 On-policy : SALSA, Off-policy : Q-learning 이 존재

흔히 들었던 MC라던지, TD라던지, SALSA라던지 Q-learning 모두, 값( 보상함수와 상태 전이 확률 ) 을 모를때 agent가 환경과 상호작용하여 최적정책을 학습하는 기법이었던 것이었음

Autonomous Car-[강화학습] (0)	2025.05.16
Autonmous Car-[강화학습] (0)	2025.05.14
Autonomous Car-[강화학습] MDP가 있을때 없을때, 몬테카를로, TD방법 (0)	2025.05.10
Autonomous Car-[강화학습] 마르코프 결정 프로세스, MDP (0)	2025.05.08
Autonomous Car-[강화학습] 신뢰상한행동선택 Upper Confidence Board, 활용과 탐색 균형 맞춤 알고리즘 (0)	2025.05.08

2wnswoo 님의 블로그

Be a first mover, not a fast follower

오블완, 우, 티스토리챌린지,

2wnswoo 님의 블로그