마르코프 결정 프로세스, Markov Decision Process MDP: 순차적 의사결정 문제를 수학적으로 표현하기 위한 도구로, 현재 상태만으로 미래 상태를 예측할 수 있는 확률적 과정강화학습을 위한 환경을 수학적으로 설명해주는 하나의 툴이다.이때, 환경은 완전히 관측가능하다고 가정한다. 그리고 원하는 정보를 모두 획득 가능하다고 가정한다.마르코프 성질 : 미래는 오로지 현재에 의해 결정된다. = 현재가 주어졌을 때 미래는 과거와 독립적이다. = 미래를 알기위해서는 현재의 정보만으로 충분하다 e.g. 보드게임 같은경우는 현재 상태를 통해서 미래를 예측할 수 있으므로, 이는 "마르코프 성질을 갖는다고 할 수 있다." MDP의 목표는 최적의 정책, Oprimal Policy를 찾는 것이다. --상태, ..