2025/05/08 3

Autonomous Car-[강화학습] 마르코프 결정 프로세스, MDP

마르코프 결정 프로세스, Markov Decision Process MDP: 순차적 의사결정 문제를 수학적으로 표현하기 위한 도구로, 현재 상태만으로 미래 상태를 예측할 수 있는 확률적 과정강화학습을 위한 환경을 수학적으로 설명해주는 하나의 툴이다.이때, 환경은 완전히 관측가능하다고 가정한다. 그리고 원하는 정보를 모두 획득 가능하다고 가정한다.마르코프 성질 : 미래는 오로지 현재에 의해 결정된다. = 현재가 주어졌을 때 미래는 과거와 독립적이다. = 미래를 알기위해서는 현재의 정보만으로 충분하다 e.g. 보드게임 같은경우는 현재 상태를 통해서 미래를 예측할 수 있으므로, 이는 "마르코프 성질을 갖는다고 할 수 있다." MDP의 목표는 최적의 정책, Oprimal Policy를 찾는 것이다. --상태, ..

Autonomous Car-[강화학습] 신뢰상한행동선택 Upper Confidence Board, 활용과 탐색 균형 맞춤 알고리즘

탐욕적 알고리즘 현재까지 가장 높은 보상을 준 선택을 반복 > 보상 최대화 전략탐욕적 알고리즘의 한계 : 단기적인 보상에 집중하여 초기 선택이 좋지 않다면 최적의 결과를 놓칠 가능성 존재국지적 최적해 : 가장 좋아 보이는 선택을 지속 > 다른 선택지 탐색 기회 소실탐욕적 알고리즘 한계의 예 : 일시적으로 높은 보상 제공 ε-그리디 알고리즘 : ε의 확률로 랜덤 선택하는 전략 추가> 이때 입실론은 0~1 사이 작은 값을 의미한다. UCB, Upper Confidence Bound 알고리즘 :아직 충분히 시도하지 않은 행동을 더 탐사해보자너무 자주 선택된 행동보다 덜 선택된 행동에 보너스를 주어 균형 잡힌 탐험이 가능ε-greedy와 달리 무작위(random) 가 아니라 정량적 판단에 기반UCB란, 탐색과..

일본어

일본어는 아직 3개 사용. 히라가나, 가타카나, 한자우리가 아는 일본어다 하는거는 히라가나임일본어 문장의 어순은 우리말과 동일하다모음수가 적음 5개밖에 없음 아-이-우-에-오받침수가 적어서, 외래어 표기하기가 어렵다.히라가나( 가타카나 ) 한 글자는, 한 음히라가나 오십음도- 단 : 같은 모음, 가로- 행 : 같은 자음, 세로 5단 10행으로 이루어진 히라가나를 배열한 그림이다. 받침은 유일하게 '응' 하나만 있다.

카테고리 없음 2025.05.08