Q-learning
- 실제 행동이 아니라 이상적인 행동을 기준으로 하므로, 안정성이 떨어지는 환경에서 불안정할 수 있음
- 강화학습에서 SARSA와 함께 언급되는 대표적 TD 학습 방법
대표적 TD 방식(한 시나리오가 끝나기전에 매 step 마다 더 좋은 action할 수 있도록 가치 함수를 업데이트 하여 더 좋은 정책으로 수렴하도록 하는 방식)
TD방식중에 Qlearning 과 SARSA의 차이가 무엇?
*행동 정책: 실제로 환경과 상호작용하며 action을 선택하는 정책
*타깃 정책: 학습(업데이트) 하고자 하는 정책
SARSA 방식: 행동정책 = 타깃정책
Q-Learning 방식: 행동정책 ≠ 타깃 정책
Q-learning의 장점
- 실제 행동을 기준으로 하는 것이 아니라 최적의 행동을 기준으로 가치 함수를 업데이트 하므로 빠르게 최적 정책으로 수렴이 가능
Q-learning의 단점
- 실제 행동이 아닌 최적 행동을 기준으로 학습하므로 학습의 불안정성과 오류를 초래할 수 있음
- 따라서, 안정성을 요구하는 환경에서 불안정성을 보일 수 있음
'**Autonomous driving tech. > *Machine-Learning' 카테고리의 다른 글
[강화학습] SARSA 알고리즘 (0) | 2025.07.04 |
---|---|
[강화학습] TD, MC 기법 비교 (0) | 2025.07.02 |
Autonomous Car-[강화학습] (0) | 2025.05.16 |
Autonmous Car-[강화학습] (0) | 2025.05.14 |
Autonomous Car-[강화학습] 벨만 방정식(이해 완전히 안됨), 몬테카를로 (0) | 2025.05.13 |