- 강화학습, Reinforcement Learning : 어떤 Agent가 환경 안에서 행동( a )을 했을 때 얻게 되는 보상( r )을 사용해 학습하는 방법
- 환경이라는 것은, 의사결정 주체인 Agent가 들어가있는 환경
- Agent가 Action을 취하게 되면, 그 Agent는 현 상태에서 다음 상태로 상태가 변화될 수 있다.
- 따라서 state랑 Action은 중요한 개념이다.
- 이 Action을 취하면 Reward를 받을 수 있다.
- Reward, 보상 : 주어진 state에 Action을 수행했을 때 얻게 되는 것
- Discount Factor, 할인인자 : 미래의 보상은 불확실성이 있기 때문에 그 가치를 현재의 가치보다 떨어뜨리는 비율
- Markov Decision Process( MDP ), 마르코프 결정과정
- Policy, 정책 : 상태 s에서 의사결정자가 취할 행동을 지정하는 함수
- 목적 : 최종적으로 얻게 되는 모든 보상의 합( 기대치 )을 최대화하는 policy( 정책 )을 학습하는 것
- State Transition Probability, 상태 전이 확률 : 현재 state와 Action을 다음 state와 mapping해 주는 function
- *누적 보상값을 최대화하는 정책을 어떻게 학습할 수 있을까?
- *할인 인자( Discount Factor )를 적용해서 합한 보상 값의 합계
- Q는 처음에는 random하게 시작, iteration을 거듭함에 따라 실제 값에 수렴하도록 학습
- Optimal Q-function 하나만 제대로 알고 있다면 언제나 주어진 state에서 가장 Q값을 크게 만드는 Action을 고름으로써 최적 정책을 만들어낸다.
- Explpoit > Q-function 이용
- Exploration > Random 이용
'**Autonomous driving tech. > *Machine-Learning' 카테고리의 다른 글
Autonomous Car-[강화학습] 신뢰상한행동선택 Upper Confidence Board, 활용과 탐색 균형 맞춤 알고리즘 (0) | 2025.05.08 |
---|---|
Autonomous Car-[강화학습] 정의 및 구성요소 6가지, Agent, Environment, State, Action, Reward, Policy + 가치함수, 모델, 할인율 (0) | 2025.05.07 |
[Machine Learning] L2, L1 Norm (0) | 2025.04.15 |
Image Rectification, Odds Ratio, Logit function (0) | 2025.04.13 |
[Machine Learning] norm, normalization (0) | 2025.04.11 |