
마르코프 결정 프로세스, Markov Decision Process MDP
: 순차적 의사결정 문제를 수학적으로 표현하기 위한 도구로, 현재 상태만으로 미래 상태를 예측할 수 있는 확률적 과정
- 강화학습을 위한 환경을 수학적으로 설명해주는 하나의 툴이다.
- 이때, 환경은 완전히 관측가능하다고 가정한다. 그리고 원하는 정보를 모두 획득 가능하다고 가정한다.
마르코프 성질 : 미래는 오로지 현재에 의해 결정된다. = 현재가 주어졌을 때 미래는 과거와 독립적이다. = 미래를 알기위해서는 현재의 정보만으로 충분하다
e.g. 보드게임 같은경우는 현재 상태를 통해서 미래를 예측할 수 있으므로, 이는 "마르코프 성질을 갖는다고 할 수 있다."
MDP의 목표는 최적의 정책, Oprimal Policy를 찾는 것이다.
--
- 상태, state : 자율주행 차량에서는 현재의 위치, 속도, 주변 물체 정보라고 할 수 있음
- 행동집합, A : 에이전트가 취할 수 있는 모든 가능한 행동들의 집합을 의미함. 자율주행차에서는 가속/감속/차선변경이 해당
- 보상함수, R : 에이전트가 특정 상태에서 특정 행동을 취하거나 특정 상태로 전이한 후 환경으로부터 받는 피드백




Summary
MP : S + P
MRP : S + P + R + 감쇠인자
MDP : S + P + R + 감쇠인자 + A