- 탐욕적 알고리즘 현재까지 가장 높은 보상을 준 선택을 반복 > 보상 최대화 전략
- 탐욕적 알고리즘의 한계 : 단기적인 보상에 집중하여 초기 선택이 좋지 않다면 최적의 결과를 놓칠 가능성 존재
- 국지적 최적해 : 가장 좋아 보이는 선택을 지속 > 다른 선택지 탐색 기회 소실
- 탐욕적 알고리즘 한계의 예 : 일시적으로 높은 보상 제공
ε-그리디 알고리즘 :
ε의 확률로 랜덤 선택하는 전략 추가
> 이때 입실론은 0~1 사이 작은 값을 의미한다.
UCB, Upper Confidence Bound 알고리즘 :
아직 충분히 시도하지 않은 행동을 더 탐사해보자
- 너무 자주 선택된 행동보다 덜 선택된 행동에 보너스를 주어 균형 잡힌 탐험이 가능
- ε-greedy와 달리 무작위(random) 가 아니라 정량적 판단에 기반
- UCB란, 탐색과 활용의 균형을 자동으로 조절하는 방식을 제공해준다.
경사도 다중 슬롯머신 알고리즘
- 기존의 탐욕적, Upper Confidence Bound, ε-그리디 알고리즘과는 다르게, 경사도 다중 슬롯머신 알고리즘은, 각 슬롯머신 선택 확률 업데이트를 통해 선택 확률을 조정해 나간다.
--
ε-그리디 알고리즘의 주요 특징으로 올바르지 않은 것은?
> ε 확률로 가장 높은 보상을 준 슬롯머신을 선택한다. (x)
- 확률 ε → 무작위로 아무 슬롯머신(팔)을 선택 (탐색)
- 확률 1−ε → 현재까지 평균 보상이 가장 높은 슬롯머신을 선택 (활용)
입실론으로 랜덤하게 선택( 탐색 ) 하고, 1-입실론으로 가장 높은 슬롯머신을 선택( 활용 ) 한다.
'**Autonomous driving tech. > *Machine-Learning' 카테고리의 다른 글
Autonomous Car-[강화학습] MDP가 있을때 없을때, 몬테카를로, TD방법 (0) | 2025.05.10 |
---|---|
Autonomous Car-[강화학습] 마르코프 결정 프로세스, MDP (0) | 2025.05.08 |
Autonomous Car-[강화학습] 정의 및 구성요소 6가지, Agent, Environment, State, Action, Reward, Policy + 가치함수, 모델, 할인율 (0) | 2025.05.07 |
Autonomous Car-[강화학습] 핵심 구성요소 6가지, Agent, Environment, State, Action, Reward, Policy (0) | 2025.05.07 |
[Machine Learning] L2, L1 Norm (0) | 2025.04.15 |