**Autonomous driving tech./*Machine-Learning

Autonomous Car-[강화학습] 신뢰상한행동선택 Upper Confidence Board, 활용과 탐색 균형 맞춤 알고리즘

2wnswoo 2025. 5. 8. 19:22

 

  • 탐욕적 알고리즘 현재까지 가장 높은 보상을 준 선택을 반복 > 보상 최대화 전략
  • 탐욕적 알고리즘의 한계 : 단기적인 보상에 집중하여 초기 선택이 좋지 않다면 최적의 결과를 놓칠 가능성 존재
  • 국지적 최적해 : 가장 좋아 보이는 선택을 지속 > 다른 선택지 탐색 기회 소실
  • 탐욕적 알고리즘 한계의 예 : 일시적으로 높은 보상 제공

 ε-그리디 알고리즘 : 

 ε의 확률로 랜덤 선택하는 전략 추가

> 이때 입실론은 0~1 사이 작은 값을 의미한다.

 

UCB, Upper Confidence Bound 알고리즘 :

아직 충분히 시도하지 않은 행동을 더 탐사해보자

  • 너무 자주 선택된 행동보다 덜 선택된 행동에 보너스를 주어 균형 잡힌 탐험이 가능
  • ε-greedy와 달리 무작위(random) 가 아니라 정량적 판단에 기반
  • UCB란, 탐색과 활용의 균형을 자동으로 조절하는 방식을 제공해준다. 

경사도 다중 슬롯머신 알고리즘

  • 기존의 탐욕적, Upper Confidence Bound, ε-그리디 알고리즘과는 다르게, 경사도 다중 슬롯머신 알고리즘은, 각 슬롯머신 선택 확률 업데이트를 통해 선택 확률을 조정해 나간다.

 

--

ε-그리디 알고리즘의 주요 특징으로 올바르지 않은 것은?

> ε 확률로 가장 높은 보상을 준 슬롯머신을 선택한다. (x)

 

  • 확률 ε무작위로 아무 슬롯머신(팔)을 선택 (탐색)
  • 확률 1−ε현재까지 평균 보상이 가장 높은 슬롯머신을 선택 (활용)

입실론으로 랜덤하게 선택( 탐색 ) 하고, 1-입실론으로 가장 높은 슬롯머신을 선택( 활용 ) 한다.

 

 

신뢰 상한 행동 선택, UCB