**Autonomous driving tech./*Machine-Learning

[강화학습] Q-learning

2wnswoo 2025. 7. 6. 14:09

Q-learning

  • 실제 행동이 아니라 이상적인 행동을 기준으로 하므로, 안정성이 떨어지는 환경에서 불안정할 수 있음
  • 강화학습에서 SARSA와 함께 언급되는 대표적 TD 학습 방법 

 

대표적 TD 방식(한 시나리오가 끝나기전에 매 step 마다 더 좋은 action할 수 있도록 가치 함수를 업데이트 하여 더 좋은 정책으로 수렴하도록 하는 방식)

TD방식중에 Qlearning 과 SARSA의 차이가 무엇?

 

*행동 정책: 실제로 환경과 상호작용하며 action을 선택하는 정책

*타깃 정책: 학습(업데이트) 하고자 하는 정책

 

SARSA 방식: 행동정책 = 타깃정책

Q-Learning 방식: 행동정책 ≠ 타깃 정책 

 

Q-learning의 장점

  • 실제 행동을 기준으로 하는 것이 아니라 최적의 행동을 기준으로 가치 함수를 업데이트 하므로 빠르게 최적 정책으로 수렴이 가능

Q-learning의 단점

  • 실제 행동이 아닌 최적 행동을 기준으로 학습하므로 학습의 불안정성과 오류를 초래할 수 있음
  • 따라서, 안정성을 요구하는 환경에서 불안정성을 보일 수 있음