**Autonomous driving tech./*Machine-Learning

Autonomous Car-[강화학습] 핵심 구성요소 6가지, Agent, Environment, State, Action, Reward, Policy

2wnswoo 2025. 5. 7. 00:00

  • 강화학습, Reinforcement Learning : 어떤 Agent가 환경 안에서 행동( a )을 했을 때 얻게 되는 보상( r )을 사용해 학습하는 방법
    • 환경이라는 것은, 의사결정 주체인 Agent가 들어가있는 환경
    • Agent가 Action을 취하게 되면, 그 Agent는 현 상태에서 다음 상태로 상태가 변화될 수 있다.
    • 따라서 state랑 Action은 중요한 개념이다.
    • 이 Action을 취하면 Reward를 받을 수 있다.
  • Reward, 보상 : 주어진 state에 Action을 수행했을 때 얻게 되는 것
  • Discount Factor, 할인인자 : 미래의 보상은 불확실성이 있기 때문에 그 가치를 현재의 가치보다 떨어뜨리는 비율
  • Markov Decision Process( MDP ), 마르코프 결정과정
    • Policy, 정책 : 상태 s에서 의사결정자가 취할 행동을 지정하는 함수
    • 목적 : 최종적으로 얻게 되는 모든 보상의 합( 기대치 )을 최대화하는 policy( 정책 )을 학습하는 것
    • State Transition Probability, 상태 전이 확률 : 현재 state와 Action을 다음 state와 mapping해 주는 function
  • *누적 보상값을 최대화하는 정책을 어떻게 학습할 수 있을까?
    • *할인 인자( Discount Factor )를 적용해서 합한 보상 값의 합계
  • Q는 처음에는 random하게 시작, iteration을 거듭함에 따라 실제 값에 수렴하도록 학습
  • Optimal Q-function 하나만 제대로 알고 있다면 언제나 주어진 state에서 가장 Q값을 크게 만드는 Action을 고름으로써 최적 정책을 만들어낸다.
  • Explpoit > Q-function 이용
  • Exploration > Random 이용