**Autonomous driving tech./*Machine-Learning

Autonomous Car-[강화학습] MDP가 있을때 없을때, 몬테카를로, TD방법

2wnswoo 2025. 5. 10. 13:24

몬테카를로 방법

  • 환경과 상호작용하며, 각 에피소드의 실제 보상을 관찰하여 기댓값 추정
  • 모든 상태를 직접 탐색
  • 환경이 에피소드 기반일 때 효과적이다.
  • 각 경로의 총 보상 계산

시간차, Temporal-Difference, TD 방법

  • 부트스트랩 접근
  • 에피소드 내 매 단계에서 상태 또는 행동 가치를 직접 업데이트
  • 각 단계에서 보상 및 기대 가치 업데이트

Q-러닝, Off-policy Conotrol

  • 행동 가치를 직접 학습
  • 가장 높은 가치를 가지는 행동을 선택하는 정책

SARSA, On-policy Control

  • 정책하에서 행동 가치 학습
  • 정책의 실제 실행 결과를 기반으로 학습

--

MDP를 알 때 

  • 상태 전이 확률과 보상 수학적 활용
  • 가치와 정책 계산
  • 반복적으로 최적화

MDP를 모를 때

  • 경험 데이터를 통한 근사적 학습
  • TD 학습과 Monte Carlo 방법을 사용한 가치 평가
  • Q러닝과 SALRSA 기법을 사용한 정책 최적화

 

--

🚗 "국민대 2025 자율주행 예선과제1 상황 설정"

자율주행 자동차가 흰색 선 밖으로 절대 벗어나지 않으면서,
다시 출발점으로 돌아와야 해!

이걸 반복하면서 어떻게 더 잘 운전할 수 있을까? 하는 이야기가 바로 강화학습이야.

 

1. 몬테카를로 방법 – 한 바퀴 다 돈 후에 배우기

자동차가 흰선을 따라 전체 코스를 한 바퀴 다 돌고 나서,
“어디서 선 넘었지? 어디서 잘했지?” 하고 복습해.

✅ 예시:

  • “아, 저기서 흰선을 밟았구나. 다음엔 더 안쪽으로 가야겠다!”
  • “이쪽으로 돌았더니 선 안 벗어나고 잘 돌았네!”

👉 한 번 완전히 다 돌아본 뒤에 배우는 방식!


2. TD 방법 – 달리는 도중에도 바로 배우기

자동차가 한 칸, 한 칸 움직이면서,
“지금 이 코너 괜찮은데? 조금 더 안쪽으로 돌아야겠다!”
하고 그때그때 배우는 방식이야.

✅ 예시:

  • “방금 오른쪽으로 돌았는데 흰선 가까웠어! 다음엔 조금 더 천천히 돌아야지.”

👉 바로바로 배우는, 똑똑한 방식!


3. Q-러닝 – 나중에 최고 길만 간다고 믿고 배우기

자동차는 이렇게 생각해:
“지금 내가 어떤 길을 가든, 다음엔 항상 가장 좋은 선택만 할 거야!”

✅ 예시:

  • “지금은 흰선 살짝 밟았지만, 앞으로는 완벽한 길만 갈 거니까 지금은 괜찮아!”

👉 실제로는 선을 밟았어도, 이론상 최고 길을 가정하고 배우는 방식.


4. SARSA – 실제 내가 간 길 그대로 배우기

이번엔 현실 그대로!
자동차가 “내가 실제로 돌았던 길에서 배울게.” 라고 해.

✅ 예시:

  • “이번에 오른쪽으로 돌다가 흰선을 조금 밟았어. 그걸 기준으로 다시 학습하자.”

👉 진짜 내가 간 길의 결과를 반영해서 배우는 방식!


5. MDP를 안다는 건? – 흰선 정보가 다 있음

자동차가 이렇게 말할 수 있어:
“이 커브에서는 30% 확률로 선을 밟고, 이 속도로 돌면 괜찮아!”
👉 수학으로 다 계산해서 최적의 경로를 찾는 거야.


6. MDP를 모른다는 건? – 그냥 해보면서 배우기

현실에서는 그런 정보가 없잖아?
그래서 자동차는 흰선을 따라 여러 번 돌면서 경험을 쌓는 거야.

✅ 예시:

  • “처음엔 몇 번 선을 넘었지만, 계속 해보니까 이제 감이 잡혀!”

👉 계속 달려보면서 스스로 배우는 방식!