전체 글 262

Autonmous Car-[강화학습]

상태의 가치 추정을 위해 얻은 보상 값을 다루는 방식에 따라 구분- 최초 접촉, first-visit 방식에이전트가 특정 상태에 처음 도달했을 때의 보상만을 가치 평가에 사용하는 방식, 첫 방문 보상만 반영함에이전트가 게임을 진행하면서 처음으로 상태 s에 도달했을 때부터 종료 시점까지의 보상만 누적하여 상태 s의 가치를 추정이후 게임에서 상태 s에 다시 도달하더라도, 해당 게임 내에서 처음 방문한 시점의 보상만 반영- 모든 접촉, every-visit 방식에이전트가 특정 상태에 도달할 때마다 모든 방문에 대해 보상을 누적하여 가치 평가에 사용하는 방식에이전트가 상태 s에 모든 도달 시점다의 보상을 활용하여 평균값으로 상태 s의 가치를 추정 많은 경험을 통해 가치를 추정하는 방식이, 몬테카를로 방법론이다!..

Autonomous Car-[강화학습] 벨만 방정식(이해 완전히 안됨), 몬테카를로

정책 : 어떠한 상태에서 Agent가 어떠한 행동을 할지 결정하는 규칙벨만 방정식가치, Value를 계산할 때 벨만 방정식을 사용함시점 t에서 value랑 t+1 value 사이의 관계를 다룸, 재귀함수 성격을 가짐*재귀함수 : 자기 자신을 호출하는 함수 ( e.g 피보나치 수열, 0,1,2,3,5,8.13 앞의 첫번째항과 두번째항을 계속해서 더하는 구조임 )모델 프리, model free : MDP를 모를 때 학습하는 접근법모델 기반, model-based : MDP를 알고 있을 때 학습하는 접근법 ( 경험에 의한 평균값으로 계산 )벨만 기대 방정식 : 특정 정책을 따를 때 상태 가치를 다룸벨만 최적 방정식 : 최적 정책을 바로 구하는 것이 목표가능한 정책 중 가장 높은 가치를 제공하는 정책을 선택최적..

Autonomous Car-[강화학습] MDP가 있을때 없을때, 몬테카를로, TD방법

몬테카를로 방법환경과 상호작용하며, 각 에피소드의 실제 보상을 관찰하여 기댓값 추정모든 상태를 직접 탐색환경이 에피소드 기반일 때 효과적이다.각 경로의 총 보상 계산시간차, Temporal-Difference, TD 방법부트스트랩 접근에피소드 내 매 단계에서 상태 또는 행동 가치를 직접 업데이트각 단계에서 보상 및 기대 가치 업데이트Q-러닝, Off-policy Conotrol행동 가치를 직접 학습가장 높은 가치를 가지는 행동을 선택하는 정책SARSA, On-policy Control정책하에서 행동 가치 학습정책의 실제 실행 결과를 기반으로 학습--MDP를 알 때 상태 전이 확률과 보상 수학적 활용가치와 정책 계산반복적으로 최적화MDP를 모를 때경험 데이터를 통한 근사적 학습TD 학습과 Monte Car..

일본어

히라가나 갯수는 총 46개기본문자는 맑은 소리인 "청음" 이라고 하고탁점을 찍어서, 탁음으로 변환. 탁음 : 음을 탁하게 만드는 것탁점은 카,사,타,하 행에만 찍을 수 있음반탁음 : 동그라미 붙임요음 : 반모음인 '야','유','요'를 작게 씀으로써 앞음을 이중모음으로 변환요음의 앞에 오는 음은 모두 [i] 인 '이' 발음인 글자만 올 수 있다.--받침 일본어 받침 방식에는 두 가지로 표현한다.1) 촉음2) 발음 촉음, 뒷 자음의 단어를 가져와서 사용한다. 아래는 한국인들이 어려워하는 표현, 그냥 암기해라고 하심. '마', '바', '빠'--일본어 받침은 ㅂ, ㄷ, ㄴ, ㅁ, ㅇ, ㅅ 으로 존재. 일본어에는 거의 모든 한국어 받침이 없다> 그중 하나가 ㄹ 이다.따라서, 할머니를 하르모니라고 발음한다...

카테고리 없음 2025.05.09

Autonomous Car-[강화학습] 마르코프 결정 프로세스, MDP

마르코프 결정 프로세스, Markov Decision Process MDP: 순차적 의사결정 문제를 수학적으로 표현하기 위한 도구로, 현재 상태만으로 미래 상태를 예측할 수 있는 확률적 과정강화학습을 위한 환경을 수학적으로 설명해주는 하나의 툴이다.이때, 환경은 완전히 관측가능하다고 가정한다. 그리고 원하는 정보를 모두 획득 가능하다고 가정한다.마르코프 성질 : 미래는 오로지 현재에 의해 결정된다. = 현재가 주어졌을 때 미래는 과거와 독립적이다. = 미래를 알기위해서는 현재의 정보만으로 충분하다 e.g. 보드게임 같은경우는 현재 상태를 통해서 미래를 예측할 수 있으므로, 이는 "마르코프 성질을 갖는다고 할 수 있다." MDP의 목표는 최적의 정책, Oprimal Policy를 찾는 것이다. --상태, ..

Autonomous Car-[강화학습] 신뢰상한행동선택 Upper Confidence Board, 활용과 탐색 균형 맞춤 알고리즘

탐욕적 알고리즘 현재까지 가장 높은 보상을 준 선택을 반복 > 보상 최대화 전략탐욕적 알고리즘의 한계 : 단기적인 보상에 집중하여 초기 선택이 좋지 않다면 최적의 결과를 놓칠 가능성 존재국지적 최적해 : 가장 좋아 보이는 선택을 지속 > 다른 선택지 탐색 기회 소실탐욕적 알고리즘 한계의 예 : 일시적으로 높은 보상 제공 ε-그리디 알고리즘 : ε의 확률로 랜덤 선택하는 전략 추가> 이때 입실론은 0~1 사이 작은 값을 의미한다. UCB, Upper Confidence Bound 알고리즘 :아직 충분히 시도하지 않은 행동을 더 탐사해보자너무 자주 선택된 행동보다 덜 선택된 행동에 보너스를 주어 균형 잡힌 탐험이 가능ε-greedy와 달리 무작위(random) 가 아니라 정량적 판단에 기반UCB란, 탐색과..

일본어

일본어는 아직 3개 사용. 히라가나, 가타카나, 한자우리가 아는 일본어다 하는거는 히라가나임일본어 문장의 어순은 우리말과 동일하다모음수가 적음 5개밖에 없음 아-이-우-에-오받침수가 적어서, 외래어 표기하기가 어렵다.히라가나( 가타카나 ) 한 글자는, 한 음히라가나 오십음도- 단 : 같은 모음, 가로- 행 : 같은 자음, 세로 5단 10행으로 이루어진 히라가나를 배열한 그림이다. 받침은 유일하게 '응' 하나만 있다.

카테고리 없음 2025.05.08

Autonomous Car-[강화학습] 다중 슬롯머신, 활용과 탐색, 입실론 그리디 알고리즘, 톰슨 샘플링

A/B 테스트 : 데이터 기반의 합리적인 의사 결정을 위한 방법론 다중 슬롯머신 문제는, 여러 선택지( 슬롯 머신 ) 중에 최적의 선택을 반복하여, 최대한의 보상을 수령하는 것이다.다중 슬롯머신에서 **탐색은, 높은 보상을 주는 슬롯머신 발견 가능성을 증가시킨다는 장점이 있다.그러나 탐색시, 잘못 선택하여 보상을 놓칠 위험도 동시에 존재한다.다중 슬롯 머신에서, "너무 많은 탐색"은 "시간 낭비"에 해당하고"너무 많은 활용"은 "최적의 보상을 놓치는 결과를 초래"할 수 있다.따라서, 탐색과 활용의 균형을 맞추는 것이 필요하다.--ε-그리디 알고리즘 - 일부 확률 : 평균 보상이 높은 팔 선택- 나머지 확률 : 랜덤하게 팔 하나를 선택 ε -그리디 알고리즘에서의활용 : 1- ε , 현재까지 가장 높은 ..

카테고리 없음 2025.05.07