Autonomous Car-[강화학습] MDP가 있을때 없을때, 몬테카를로, TD방법

**Autonomous driving tech./*Machine-Learning

Autonomous Car-[강화학습] MDP가 있을때 없을때, 몬테카를로, TD방법

2wnswoo 2025. 5. 10. 13:24

몬테카를로 방법

환경과 상호작용하며, 각 에피소드의 실제 보상을 관찰하여 기댓값 추정
모든 상태를 직접 탐색
환경이 에피소드 기반일 때 효과적이다.
각 경로의 총 보상 계산

시간차, Temporal-Difference, TD 방법

부트스트랩 접근
에피소드 내 매 단계에서 상태 또는 행동 가치를 직접 업데이트
각 단계에서 보상 및 기대 가치 업데이트

Q-러닝, Off-policy Conotrol

행동 가치를 직접 학습
가장 높은 가치를 가지는 행동을 선택하는 정책

SARSA, On-policy Control

정책하에서 행동 가치 학습
정책의 실제 실행 결과를 기반으로 학습

MDP를 알 때

상태 전이 확률과 보상 수학적 활용
가치와 정책 계산
반복적으로 최적화

MDP를 모를 때

경험 데이터를 통한 근사적 학습
TD 학습과 Monte Carlo 방법을 사용한 가치 평가
Q러닝과 SALRSA 기법을 사용한 정책 최적화

🚗 "국민대 2025 자율주행 예선과제1 상황 설정"

자율주행 자동차가 흰색 선 밖으로 절대 벗어나지 않으면서,
다시 출발점으로 돌아와야 해!

이걸 반복하면서 어떻게 더 잘 운전할 수 있을까? 하는 이야기가 바로 강화학습이야.

1. 몬테카를로 방법 – 한 바퀴 다 돈 후에 배우기

자동차가 흰선을 따라 전체 코스를 한 바퀴 다 돌고 나서,
“어디서 선 넘었지? 어디서 잘했지?” 하고 복습해.

✅ 예시:

“아, 저기서 흰선을 밟았구나. 다음엔 더 안쪽으로 가야겠다!”
“이쪽으로 돌았더니 선 안 벗어나고 잘 돌았네!”

👉 한 번 완전히 다 돌아본 뒤에 배우는 방식!

2. TD 방법 – 달리는 도중에도 바로 배우기

자동차가 한 칸, 한 칸 움직이면서,
“지금 이 코너 괜찮은데? 조금 더 안쪽으로 돌아야겠다!”
하고 그때그때 배우는 방식이야.

✅ 예시:

“방금 오른쪽으로 돌았는데 흰선 가까웠어! 다음엔 조금 더 천천히 돌아야지.”

👉 바로바로 배우는, 똑똑한 방식!

3. Q-러닝 – 나중에 최고 길만 간다고 믿고 배우기

자동차는 이렇게 생각해:
“지금 내가 어떤 길을 가든, 다음엔 항상 가장 좋은 선택만 할 거야!”

✅ 예시:

“지금은 흰선 살짝 밟았지만, 앞으로는 완벽한 길만 갈 거니까 지금은 괜찮아!”

👉 실제로는 선을 밟았어도, 이론상 최고 길을 가정하고 배우는 방식.

4. SARSA – 실제 내가 간 길 그대로 배우기

이번엔 현실 그대로!
자동차가 “내가 실제로 돌았던 길에서 배울게.” 라고 해.

✅ 예시:

“이번에 오른쪽으로 돌다가 흰선을 조금 밟았어. 그걸 기준으로 다시 학습하자.”

👉 진짜 내가 간 길의 결과를 반영해서 배우는 방식!

5. MDP를 안다는 건? – 흰선 정보가 다 있음

자동차가 이렇게 말할 수 있어:
“이 커브에서는 30% 확률로 선을 밟고, 이 속도로 돌면 괜찮아!”
👉 수학으로 다 계산해서 최적의 경로를 찾는 거야.

6. MDP를 모른다는 건? – 그냥 해보면서 배우기

현실에서는 그런 정보가 없잖아?
그래서 자동차는 흰선을 따라 여러 번 돌면서 경험을 쌓는 거야.

✅ 예시:

“처음엔 몇 번 선을 넘었지만, 계속 해보니까 이제 감이 잡혀!”

👉 계속 달려보면서 스스로 배우는 방식!

저작자표시 비영리 변경금지 (새창열림)

'**Autonomous driving tech. > *Machine-Learning' 카테고리의 다른 글

Autonmous Car-[강화학습] (0)	2025.05.14
Autonomous Car-[강화학습] 벨만 방정식(이해 완전히 안됨), 몬테카를로 (0)	2025.05.13
Autonomous Car-[강화학습] 마르코프 결정 프로세스, MDP (0)	2025.05.08
Autonomous Car-[강화학습] 신뢰상한행동선택 Upper Confidence Board, 활용과 탐색 균형 맞춤 알고리즘 (0)	2025.05.08
Autonomous Car-[강화학습] 정의 및 구성요소 6가지, Agent, Environment, State, Action, Reward, Policy + 가치함수, 모델, 할인율 (0)	2025.05.07

현재글Autonomous Car-[강화학습] MDP가 있을때 없을때, 몬테카를로, TD방법

2wnswoo 님의 블로그

Be a first mover, not a fast follower

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

2wnswoo 님의 블로그