
State-Action-Reward-State-Action: Agent 가 현재 정책에 따라 행동을 선택하고, 그에 따라 얻은 보상을 바탕으로 행동가치함수(Q(s,a)를 업데이트함 > Agent는 행동가치함수를 활용하여 정책 업데이트 > 이 과정 반복 SARSA는 On-policy 알고리즘 SARSA는 행동가치함수 Q(s,a)를 학습해서 정책을 개선하고, 최적 정책에 수렴시키는 것 --On-policy 와 Off-policy 는 어떤 차이를 가질까?On-policy: Agent가 현재 사용하고 있는 정책을 개선하며 학습하는 방법탐험( exploration )과 활용( explitation )간 균형을 위해 탐욕 정책(=greedy정책) 같은 방법을 사용하여 학습*exploration: 아직 잘 모르는 ..