- 정책 : 어떠한 상태에서 Agent가 어떠한 행동을 할지 결정하는 규칙
벨만 방정식
- 가치, Value를 계산할 때 벨만 방정식을 사용함
- 시점 t에서 value랑 t+1 value 사이의 관계를 다룸, 재귀함수 성격을 가짐
- *재귀함수 : 자기 자신을 호출하는 함수 ( e.g 피보나치 수열, 0,1,2,3,5,8.13 앞의 첫번째항과 두번째항을 계속해서 더하는 구조임 )
- 모델 프리, model free : MDP를 모를 때 학습하는 접근법
- 모델 기반, model-based : MDP를 알고 있을 때 학습하는 접근법 ( 경험에 의한 평균값으로 계산 )
- 벨만 기대 방정식 : 특정 정책을 따를 때 상태 가치를 다룸
- 벨만 최적 방정식 : 최적 정책을 바로 구하는 것이 목표
- 가능한 정책 중 가장 높은 가치를 제공하는 정책을 선택
- 최적의 정책을 찾기 위한 동적 프로그래밍 알고리즘 두 가지
- 1. 정책 반복법 : 정책가치평가 후 반복적으로 정책을 개선하여 최적의 정책에 수렴시키는 것, 장점은 작은 문제에서 직관적이고 안정적
- 2. 가치 반복법 :
- 모델 프리 학습 적용 이유
- 1. 환경 불확실성
- 2. 계산 복잡성 감소
- 3. 데이터 수집 비용이 적음
- 데이터 수집이 어려운 상황에서, 적은 데이터량으로 경험을 통해 학습이 가능함
- 4. 복잡한 행동 공간
- 5. 모델 구축 실효성 문제
정리하면,
모델 프리학습이란? : 보상함수나 상태 전이 확률을 모르는 상태임에도 Agent가 환경과의 상호작용을 통해 ( = 탐색적 활동을 통해 ) 최적의 정책을 학습하는 방법
그리고,
모델프리학습에는 두 개로 나눌 수 있는데, 하나는 모델프리 가치 평가 방법과 모델프리 정책 최적화 방법으로 나눌 수 있고
모델프리 가치 평가에는 몬테카를로와 Temporal Difference TD 방법이 존재하고,
모델프리 정책 최적화에는 On-policy : SALSA, Off-policy : Q-learning 이 존재
--
흔히 들었던 MC라던지, TD라던지, SALSA라던지 Q-learning 모두, 값( 보상함수와 상태 전이 확률 ) 을 모를때 agent가 환경과 상호작용하여 최적정책을 학습하는 기법이었던 것이었음
'**Autonomous driving tech. > *Machine-Learning' 카테고리의 다른 글
Autonomous Car-[강화학습] (0) | 2025.05.16 |
---|---|
Autonmous Car-[강화학습] (0) | 2025.05.14 |
Autonomous Car-[강화학습] MDP가 있을때 없을때, 몬테카를로, TD방법 (0) | 2025.05.10 |
Autonomous Car-[강화학습] 마르코프 결정 프로세스, MDP (0) | 2025.05.08 |
Autonomous Car-[강화학습] 신뢰상한행동선택 Upper Confidence Board, 활용과 탐색 균형 맞춤 알고리즘 (0) | 2025.05.08 |