**Autonomous driving tech./*Machine-Learning

Autonomous Car-[강화학습] 정의 및 구성요소 6가지, Agent, Environment, State, Action, Reward, Policy + 가치함수, 모델, 할인율

2wnswoo 2025. 5. 7. 12:50

  • 강화학습 : 경험을 통해 스스로 배우는 학습 방법
    • *강화 : 행동을 의미, 어떤 상황에서 어떤 행동을 취할지 선택할 수 있는 능력 또는 지식이 강화되는 것
  • 보상 : 우리의 특정 행동을 강화해주는 역할을 하는 것, 긍정적 보상 뿐 아니라 특정 행동을 억제하는 부정적 보상도 있음, 강화학습을 가능하게 하는 매우 중요한 요소이다.
  • 자율주행에서 강화학습이란? : 실시간으로 변화하는 도로 상황에 대응하고 안전하게 목적지까지 운전하는 방법을 찾는 데 사용됨
  • Agent가 Environment와 상호작용하면서, 최적의 Action을 학습하는 기계 학습
    • Agent
    • Environment
    • Action
  • 강화학습을 구성하는 핵심요소
    • Agent
    • Envrionment
    • State
    • Action
    • Reward
    • Policy
  • 각 구성 요소의 역할
    • Agent : 학습의 주체로, 환경과 상호작용하여 최적의 정책을 학습하는 존재
      • 자율주행차에서 Agent는 자동차임
      • Agent의 목표는 누적 보상을 최대화 하는 방향으로 학습함
      • 환경에서 최적의 정책을 학습한다.
    • Environment 
      • 에이전트가 상호작용하는 시스템 또는 외부 세계
      • 에이전트의 행동에 따라 결과와 보상을 제공
      • 자율주행차의 환경은 도로, 신호등, 보행자 등 동적,정적 객체들을 의미
      • 강화학습에서 환경의 동작은 마르코프 결정 프로세스로 모델링 된다.
      • 상태와 행동 간의 전환 확률과 보상을 수학적으로 정의한다.
    • State: 환경의 현재 상황을 나타내는 정보이다.
      • 에이전트는 상태 정보를 바탕으로 어떤 행동을 취할지 결정
      • 자율주행차에서 state는 차량의 위치,속도, 주행차선, 주변 장애물의 위치 등과 같은 다양한 센서 데이터로 표현
      • 강화학습에서 중요한 기준이 되며, 에이전트는 이를 기반으로 행동을 결정하고 보상 예측
      • state의 표현 방식이 부정확하거나 불완전하면, 에이전트의 학습 성능이 저하됨
    • Action : 에이전트가 현재 상태에서 취할 수 있는 가능한 모든 행동을 의미
      • 자율주행차에서는 가속, 감속, 방향전환, 정지등의 행동을 선택할 수 있음
      • 강화학습에서 행동의 선택 : 에이전트가 정책을 따른다.
      • 최적의 행동 선택을 위해 상태와 보상을 기반으로 학습한다.
    • Reward : 에이전트의 행동에 대한 환경의 피드백
      • 에이전트가 학습할 방향을 결정하느 중요한 요소
      • 자율주행차에서, 사고없이 목적지에 도달하면 긍정적 보상 ( +1 )
      • 사고일으키면 ) -1 )
      • 에이전트는 보상을 최대화 하기 위해 학습함
    • Policy 
      • 에이전트가 특정 상태에서 어떤 행동을 선택할지를 결정하는 전략 또는 규칙
      • 에이전트가 환경에서 행동하는 방식 정의
        • 자율주행차에서는 현재 상태( 속도, 도로조건, 신호등에 따라 가감속 , 방향전환 행동을 선택하는 전략

--

  • Agent는 현재 상태에서 행동을 선택하고 보상을 받고 다음 상태로 전환된다.
  • 이러한 상태,행동,보상,다음상태가 매 시점마다 반복하고, 최적의 행동을 Agent는 학습한다.
  • 성공적으로 동작하기 위한 정책 최적화 > 보상 극대화 목표 달성
  • 그 밖에도, 가치 함수, 모델, 할인율도 중요한 요소이다.

강화학습에서 추가로 중요한 요소 3가지

1.가치함수, Value Function : 특정 상태에서 시작하여 에이전트가 받을 수 있는 보상의 기댓값

- 가치함수의 역할 : 상태나 상태-행동쌍의 가치를 측정하여, 에이전트가 최적 행동 선택을 돕는 지표

- 행동 가치 함수 ( =Q 함수 ) : 특정 상태에서 특정 행동을 취할 때의 기대 보상

- 상태 가치 함수 ( =V 함수 ) : 특정 상태 자체의 기대 보상

 

2. 모델, Model : 환경의 동작을 예측하거나 시뮬레이션하기 위한 구성 요소

- 모델 기반과 모델 프리 방법으로 나눌 수 있음

- 모델 기반 : 환경의 동작을 알고 있거나 이를 추정하여 학습을 가속화

- 모델 프리 : 환경에 대한 사전정보 없이 데이터를 통해 직접 학습

 

3. 할인율, Discount Factor : 미래 보상의 중요도를 결정하는 강화학습의 파라미터

- 범위는 0과 1사이의 값으로 설정

자율주행차에서 목적지에 잘 도착하는, 장기적 보상을 더 중요시 여기면 > 높은 할인율 , 1

속도를 조절하는, 즉각적인 보상을 더 중요시 여기면 > 낮은 할인율 , 0

 

--

강화학습의 단계는 

 

1. 초기화 단계

2. 상호작용 단계

3. 학습 단계

4. 종료 조건 평가

 

로 4단계로 구성된다.

 

1. 초기화 단계는 : 에이전트와 환경을 설정하고 학습의 시작 조건을 정의하는 단계이다.

  • 환경은 문제를 정의하는 시뮬레이션으로 초기 상태( initial state )를 반환하며 학습의 출발점이다.
  • 무작위 정책 : 학습 초기에 다양한 행동을 탐색하도록 돕는다.
  • 초기화된 에이전트 : 환경의 state를 관찰할 준비를 한다.

2. 상호작용 단계는 : 에이전트와 환경이 실시간으로 상호작용하며 데이터를 생성하는 핵심 단계이다.

  • 에이전트는 현재 환경의 상태를 관찰한다.
  • 이 상태는 강화학습의 입력으로 사용된다.
  • Ex. 로봇의 위치와 속도 등

3. 학습단계는 : 정책 업데이트로 정책은 에이전트가 행동을 선택하는 기준으로, 보상을 극대화하도록 업데이트 된다.

업데이트 방식은, 값 기반/정책 기반/ 혼합 방식

 

4. 종료 조건 평가

--

강화학습의 단계 요약

 

초기화 > 상호작용 > 학습 > 종료 조건 평가의 순환 구조로 이루어진다.

--