State-Action-Reward-State-Action
: Agent 가 현재 정책에 따라 행동을 선택하고, 그에 따라 얻은 보상을 바탕으로 행동가치함수(Q(s,a)를 업데이트함 > Agent는 행동가치함수를 활용하여 정책 업데이트 > 이 과정 반복
SARSA는 On-policy 알고리즘
SARSA는 행동가치함수 Q(s,a)를 학습해서 정책을 개선하고, 최적 정책에 수렴시키는 것
--
- On-policy 와 Off-policy 는 어떤 차이를 가질까?
- On-policy: Agent가 현재 사용하고 있는 정책을 개선하며 학습하는 방법
- 탐험( exploration )과 활용( explitation )간 균형을 위해 탐욕 정책(=greedy정책) 같은 방법을 사용하여 학습
- *exploration: 아직 잘 모르는 행동 시도하며, 새로운 정보 얻는 것. 새로운 가능성 찾는 것
- *explitation: 지금까지 배운 것 중 가장 좋아 보이는 행동을 선택하는 것. 아는 걸 최대한 이용하는 것
- e.g.
- On-policy: 내가 지금 걷고 있는 길(정책)이 얼마나 좋은지 점점 알아가며 길을 다듬는 것
- Off-policy: 실제로는 아무 길이나 걷지만, 배우는 건 상상하며 배우는 것
- On-policy 의 단점: 최적 정책으로의 수렴이 상대적으로 느림.
- Off-policy 의 장점: 최적 정책을 빨리 학습 가능
'**Autonomous driving tech. > *Machine-Learning' 카테고리의 다른 글
[강화학습] Q-learning (0) | 2025.07.06 |
---|---|
[강화학습] TD, MC 기법 비교 (0) | 2025.07.02 |
Autonomous Car-[강화학습] (0) | 2025.05.16 |
Autonmous Car-[강화학습] (0) | 2025.05.14 |
Autonomous Car-[강화학습] 벨만 방정식(이해 완전히 안됨), 몬테카를로 (0) | 2025.05.13 |