Autonomous Car-[강화학습] 마르코프 결정 프로세스, MDP

**Autonomous driving tech./*Machine-Learning

2wnswoo 2025. 5. 8. 22:58

: 순차적 의사결정 문제를 수학적으로 표현하기 위한 도구로, 현재 상태만으로 미래 상태를 예측할 수 있는 확률적 과정

마르코프 성질 : 미래는 오로지 현재에 의해 결정된다. = 현재가 주어졌을 때 미래는 과거와 독립적이다. = 미래를 알기위해서는 현재의 정보만으로 충분하다

e.g. 보드게임 같은경우는 현재 상태를 통해서 미래를 예측할 수 있으므로, 이는 "마르코프 성질을 갖는다고 할 수 있다."

MDP의 목표는 최적의 정책, Oprimal Policy를 찾는 것이다.

Summary

MP : S + P

MRP : S + P + R + 감쇠인자

MDP : S + P + R + 감쇠인자 + A

Autonomous Car-[강화학습] 벨만 방정식(이해 완전히 안됨), 몬테카를로 (0)	2025.05.13
Autonomous Car-[강화학습] MDP가 있을때 없을때, 몬테카를로, TD방법 (0)	2025.05.10
Autonomous Car-[강화학습] 신뢰상한행동선택 Upper Confidence Board, 활용과 탐색 균형 맞춤 알고리즘 (0)	2025.05.08
Autonomous Car-[강화학습] 정의 및 구성요소 6가지, Agent, Environment, State, Action, Reward, Policy + 가치함수, 모델, 할인율 (0)	2025.05.07
Autonomous Car-[강화학습] 핵심 구성요소 6가지, Agent, Environment, State, Action, Reward, Policy (0)	2025.05.07

2wnswoo 님의 블로그

Be a first mover, not a fast follower

티스토리챌린지, 우, 오블완,

2wnswoo 님의 블로그