**Autonomous driving tech./*Machine-Learning

Autonomous Car-[강화학습] 마르코프 결정 프로세스, MDP

2wnswoo 2025. 5. 8. 22:58

마르코프 결정 프로세스, Markov Decision Process MDP

: 순차적 의사결정 문제를 수학적으로 표현하기 위한 도구로, 현재 상태만으로 미래 상태를 예측할 수 있는 확률적 과정

  • 강화학습을 위한 환경을 수학적으로 설명해주는 하나의 툴이다.
  • 이때, 환경은 완전히 관측가능하다고 가정한다. 그리고 원하는 정보를 모두 획득 가능하다고 가정한다.

마르코프 성질 : 미래는 오로지 현재에 의해 결정된다. = 현재가 주어졌을 때 미래는 과거와 독립적이다. = 미래를 알기위해서는 현재의 정보만으로 충분하다

 

e.g. 보드게임 같은경우는 현재 상태를 통해서 미래를 예측할 수 있으므로, 이는 "마르코프 성질을 갖는다고 할 수 있다."

 

MDP의 목표는 최적의 정책, Oprimal Policy를 찾는 것이다.

 

--

  • 상태, state : 자율주행 차량에서는 현재의 위치, 속도, 주변 물체 정보라고 할 수 있음
  • 행동집합, A : 에이전트가 취할 수 있는 모든 가능한 행동들의 집합을 의미함. 자율주행차에서는 가속/감속/차선변경이 해당
  • 보상함수, R : 에이전트가 특정 상태에서 특정 행동을 취하거나 특정 상태로 전이한 후 환경으로부터 받는 피드백

 

 

 

 

 

Summary

MP   : S + P

MRP : S + P + R + 감쇠인자

MDP : S + P + R + 감쇠인자 + A