정책 : 어떠한 상태에서 Agent가 어떠한 행동을 할지 결정하는 규칙벨만 방정식가치, Value를 계산할 때 벨만 방정식을 사용함시점 t에서 value랑 t+1 value 사이의 관계를 다룸, 재귀함수 성격을 가짐*재귀함수 : 자기 자신을 호출하는 함수 ( e.g 피보나치 수열, 0,1,2,3,5,8.13 앞의 첫번째항과 두번째항을 계속해서 더하는 구조임 )모델 프리, model free : MDP를 모를 때 학습하는 접근법모델 기반, model-based : MDP를 알고 있을 때 학습하는 접근법 ( 경험에 의한 평균값으로 계산 )벨만 기대 방정식 : 특정 정책을 따를 때 상태 가치를 다룸벨만 최적 방정식 : 최적 정책을 바로 구하는 것이 목표가능한 정책 중 가장 높은 가치를 제공하는 정책을 선택최적..