**Autonomous driving tech./*Machine-Learning

Autonomous Car-[강화학습] 벨만 방정식(이해 완전히 안됨), 몬테카를로

2wnswoo 2025. 5. 13. 14:19

  • 정책 : 어떠한 상태에서 Agent가 어떠한 행동을 할지 결정하는 규칙

벨만 방정식

  • 가치, Value를 계산할 때 벨만 방정식을 사용함
  • 시점 t에서 value랑 t+1 value 사이의 관계를 다룸, 재귀함수 성격을 가짐
    • *재귀함수 : 자기 자신을 호출하는 함수 ( e.g 피보나치 수열, 0,1,2,3,5,8.13 앞의 첫번째항과 두번째항을 계속해서 더하는 구조임 )
  • 모델 프리, model free : MDP를 모를 때 학습하는 접근법
  • 모델 기반, model-based : MDP를 알고 있을 때 학습하는 접근법 ( 경험에 의한 평균값으로 계산 )
  • 벨만 기대 방정식 : 특정 정책을 따를 때 상태 가치를 다룸
  • 벨만 최적 방정식 : 최적 정책을 바로 구하는 것이 목표
    • 가능한 정책 중 가장 높은 가치를 제공하는 정책을 선택
  • 최적의 정책을 찾기 위한 동적 프로그래밍 알고리즘 두 가지
    • 1. 정책 반복법 : 정책가치평가 후 반복적으로 정책을 개선하여 최적의 정책에 수렴시키는 것, 장점은 작은 문제에서 직관적이고 안정적
    • 2. 가치 반복법 : 
  • 모델 프리 학습 적용 이유
    • 1. 환경 불확실성
    • 2. 계산 복잡성 감소
    • 3. 데이터 수집 비용이 적음
      • 데이터 수집이 어려운 상황에서, 적은 데이터량으로 경험을 통해 학습이 가능함
    • 4. 복잡한 행동 공간
    • 5. 모델 구축 실효성 문제

정리하면,

모델 프리학습이란? : 보상함수나 상태 전이 확률을 모르는 상태임에도 Agent가 환경과의 상호작용을 통해 ( = 탐색적 활동을 통해 ) 최적의 정책을 학습하는 방법

 

그리고, 

모델프리학습에는 두 개로 나눌 수 있는데, 하나는 모델프리 가치 평가 방법과 모델프리 정책 최적화 방법으로 나눌 수 있고

 

모델프리 가치 평가에는 몬테카를로와 Temporal Difference TD 방법이 존재하고, 

 

모델프리 정책 최적화에는 On-policy : SALSA, Off-policy : Q-learning 이 존재

 

--

 

흔히 들었던 MC라던지, TD라던지, SALSA라던지 Q-learning 모두, 값( 보상함수와 상태 전이 확률 ) 을 모를때 agent가 환경과 상호작용하여 최적정책을 학습하는 기법이었던 것이었음