상태의 가치 추정을 위해 얻은 보상 값을 다루는 방식에 따라 구분- 최초 접촉, first-visit 방식에이전트가 특정 상태에 처음 도달했을 때의 보상만을 가치 평가에 사용하는 방식, 첫 방문 보상만 반영함에이전트가 게임을 진행하면서 처음으로 상태 s에 도달했을 때부터 종료 시점까지의 보상만 누적하여 상태 s의 가치를 추정이후 게임에서 상태 s에 다시 도달하더라도, 해당 게임 내에서 처음 방문한 시점의 보상만 반영- 모든 접촉, every-visit 방식에이전트가 특정 상태에 도달할 때마다 모든 방문에 대해 보상을 누적하여 가치 평가에 사용하는 방식에이전트가 상태 s에 모든 도달 시점다의 보상을 활용하여 평균값으로 상태 s의 가치를 추정 많은 경험을 통해 가치를 추정하는 방식이, 몬테카를로 방법론이다!..