몬테카를로 방법
- 환경과 상호작용하며, 각 에피소드의 실제 보상을 관찰하여 기댓값 추정
- 모든 상태를 직접 탐색
- 환경이 에피소드 기반일 때 효과적이다.
- 각 경로의 총 보상 계산
시간차, Temporal-Difference, TD 방법
- 부트스트랩 접근
- 에피소드 내 매 단계에서 상태 또는 행동 가치를 직접 업데이트
- 각 단계에서 보상 및 기대 가치 업데이트
Q-러닝, Off-policy Conotrol
- 행동 가치를 직접 학습
- 가장 높은 가치를 가지는 행동을 선택하는 정책
SARSA, On-policy Control
- 정책하에서 행동 가치 학습
- 정책의 실제 실행 결과를 기반으로 학습
--
MDP를 알 때
- 상태 전이 확률과 보상 수학적 활용
- 가치와 정책 계산
- 반복적으로 최적화
MDP를 모를 때
- 경험 데이터를 통한 근사적 학습
- TD 학습과 Monte Carlo 방법을 사용한 가치 평가
- Q러닝과 SALRSA 기법을 사용한 정책 최적화
--
🚗 "국민대 2025 자율주행 예선과제1 상황 설정"
자율주행 자동차가 흰색 선 밖으로 절대 벗어나지 않으면서,
다시 출발점으로 돌아와야 해!
이걸 반복하면서 어떻게 더 잘 운전할 수 있을까? 하는 이야기가 바로 강화학습이야.
1. 몬테카를로 방법 – 한 바퀴 다 돈 후에 배우기
자동차가 흰선을 따라 전체 코스를 한 바퀴 다 돌고 나서,
“어디서 선 넘었지? 어디서 잘했지?” 하고 복습해.
✅ 예시:
- “아, 저기서 흰선을 밟았구나. 다음엔 더 안쪽으로 가야겠다!”
- “이쪽으로 돌았더니 선 안 벗어나고 잘 돌았네!”
👉 한 번 완전히 다 돌아본 뒤에 배우는 방식!
2. TD 방법 – 달리는 도중에도 바로 배우기
자동차가 한 칸, 한 칸 움직이면서,
“지금 이 코너 괜찮은데? 조금 더 안쪽으로 돌아야겠다!”
하고 그때그때 배우는 방식이야.
✅ 예시:
- “방금 오른쪽으로 돌았는데 흰선 가까웠어! 다음엔 조금 더 천천히 돌아야지.”
👉 바로바로 배우는, 똑똑한 방식!
3. Q-러닝 – 나중에 최고 길만 간다고 믿고 배우기
자동차는 이렇게 생각해:
“지금 내가 어떤 길을 가든, 다음엔 항상 가장 좋은 선택만 할 거야!”
✅ 예시:
- “지금은 흰선 살짝 밟았지만, 앞으로는 완벽한 길만 갈 거니까 지금은 괜찮아!”
👉 실제로는 선을 밟았어도, 이론상 최고 길을 가정하고 배우는 방식.
4. SARSA – 실제 내가 간 길 그대로 배우기
이번엔 현실 그대로!
자동차가 “내가 실제로 돌았던 길에서 배울게.” 라고 해.
✅ 예시:
- “이번에 오른쪽으로 돌다가 흰선을 조금 밟았어. 그걸 기준으로 다시 학습하자.”
👉 진짜 내가 간 길의 결과를 반영해서 배우는 방식!
5. MDP를 안다는 건? – 흰선 정보가 다 있음
자동차가 이렇게 말할 수 있어:
“이 커브에서는 30% 확률로 선을 밟고, 이 속도로 돌면 괜찮아!”
👉 수학으로 다 계산해서 최적의 경로를 찾는 거야.
6. MDP를 모른다는 건? – 그냥 해보면서 배우기
현실에서는 그런 정보가 없잖아?
그래서 자동차는 흰선을 따라 여러 번 돌면서 경험을 쌓는 거야.
✅ 예시:
- “처음엔 몇 번 선을 넘었지만, 계속 해보니까 이제 감이 잡혀!”
👉 계속 달려보면서 스스로 배우는 방식!
'**Autonomous driving tech. > *Machine-Learning' 카테고리의 다른 글
Autonmous Car-[강화학습] (0) | 2025.05.14 |
---|---|
Autonomous Car-[강화학습] 벨만 방정식(이해 완전히 안됨), 몬테카를로 (0) | 2025.05.13 |
Autonomous Car-[강화학습] 마르코프 결정 프로세스, MDP (0) | 2025.05.08 |
Autonomous Car-[강화학습] 신뢰상한행동선택 Upper Confidence Board, 활용과 탐색 균형 맞춤 알고리즘 (0) | 2025.05.08 |
Autonomous Car-[강화학습] 정의 및 구성요소 6가지, Agent, Environment, State, Action, Reward, Policy + 가치함수, 모델, 할인율 (0) | 2025.05.07 |