Autonomous Car-[강화학습] 신뢰상한행동선택 Upper Confidence Board, 활용과 탐색 균형 맞춤 알고리즘

**Autonomous driving tech./*Machine-Learning

2wnswoo 2025. 5. 8. 19:22

ε의 확률로 랜덤 선택하는 전략 추가

> 이때 입실론은 0~1 사이 작은 값을 의미한다.

아직 충분히 시도하지 않은 행동을 더 탐사해보자

경사도 다중 슬롯머신 알고리즘

기존의 탐욕적, Upper Confidence Bound, ε-그리디 알고리즘과는 다르게, 경사도 다중 슬롯머신 알고리즘은, 각 슬롯머신 선택 확률 업데이트를 통해 선택 확률을 조정해 나간다.

ε-그리디 알고리즘의 주요 특징으로 올바르지 않은 것은?

> ε 확률로 가장 높은 보상을 준 슬롯머신을 선택한다. (x)

입실론으로 랜덤하게 선택( 탐색 ) 하고, 1-입실론으로 가장 높은 슬롯머신을 선택( 활용 ) 한다.

Autonomous Car-[강화학습] MDP가 있을때 없을때, 몬테카를로, TD방법 (0)	2025.05.10
Autonomous Car-[강화학습] 마르코프 결정 프로세스, MDP (0)	2025.05.08
Autonomous Car-[강화학습] 정의 및 구성요소 6가지, Agent, Environment, State, Action, Reward, Policy + 가치함수, 모델, 할인율 (0)	2025.05.07
Autonomous Car-[강화학습] 핵심 구성요소 6가지, Agent, Environment, State, Action, Reward, Policy (0)	2025.05.07
[Machine Learning] L2, L1 Norm (0)	2025.04.15

2wnswoo 님의 블로그

Be a first mover, not a fast follower

우, 오블완, 티스토리챌린지,

2wnswoo 님의 블로그