**Autonomous driving tech. 165

알고리즘

해시.#1from collections import Counterdef solution(participant, completion): part_counter = Counter(participant) comp_counter = Counter(completion) # 차집합으로 남은 한 명 찾기 answer = part_counter - comp_counter return list(answer.keys())[0]Counter 는 리스트 안의 각 요소가 몇 번 등장했는가 세는거Counter 함수 : 들어오는 리스트 안의 각 요소에 대한 갯수를 세겠다ex. ["leo", "kiki", "eden"] → Counter({'leo': 1, 'kiki': 1, 'eden': 1})a..

Autonmous Car-[강화학습]

상태의 가치 추정을 위해 얻은 보상 값을 다루는 방식에 따라 구분- 최초 접촉, first-visit 방식에이전트가 특정 상태에 처음 도달했을 때의 보상만을 가치 평가에 사용하는 방식, 첫 방문 보상만 반영함에이전트가 게임을 진행하면서 처음으로 상태 s에 도달했을 때부터 종료 시점까지의 보상만 누적하여 상태 s의 가치를 추정이후 게임에서 상태 s에 다시 도달하더라도, 해당 게임 내에서 처음 방문한 시점의 보상만 반영- 모든 접촉, every-visit 방식에이전트가 특정 상태에 도달할 때마다 모든 방문에 대해 보상을 누적하여 가치 평가에 사용하는 방식에이전트가 상태 s에 모든 도달 시점다의 보상을 활용하여 평균값으로 상태 s의 가치를 추정 많은 경험을 통해 가치를 추정하는 방식이, 몬테카를로 방법론이다!..

Autonomous Car-[강화학습] 벨만 방정식(이해 완전히 안됨), 몬테카를로

정책 : 어떠한 상태에서 Agent가 어떠한 행동을 할지 결정하는 규칙벨만 방정식가치, Value를 계산할 때 벨만 방정식을 사용함시점 t에서 value랑 t+1 value 사이의 관계를 다룸, 재귀함수 성격을 가짐*재귀함수 : 자기 자신을 호출하는 함수 ( e.g 피보나치 수열, 0,1,2,3,5,8.13 앞의 첫번째항과 두번째항을 계속해서 더하는 구조임 )모델 프리, model free : MDP를 모를 때 학습하는 접근법모델 기반, model-based : MDP를 알고 있을 때 학습하는 접근법 ( 경험에 의한 평균값으로 계산 )벨만 기대 방정식 : 특정 정책을 따를 때 상태 가치를 다룸벨만 최적 방정식 : 최적 정책을 바로 구하는 것이 목표가능한 정책 중 가장 높은 가치를 제공하는 정책을 선택최적..

Autonomous Car-[강화학습] MDP가 있을때 없을때, 몬테카를로, TD방법

몬테카를로 방법환경과 상호작용하며, 각 에피소드의 실제 보상을 관찰하여 기댓값 추정모든 상태를 직접 탐색환경이 에피소드 기반일 때 효과적이다.각 경로의 총 보상 계산시간차, Temporal-Difference, TD 방법부트스트랩 접근에피소드 내 매 단계에서 상태 또는 행동 가치를 직접 업데이트각 단계에서 보상 및 기대 가치 업데이트Q-러닝, Off-policy Conotrol행동 가치를 직접 학습가장 높은 가치를 가지는 행동을 선택하는 정책SARSA, On-policy Control정책하에서 행동 가치 학습정책의 실제 실행 결과를 기반으로 학습--MDP를 알 때 상태 전이 확률과 보상 수학적 활용가치와 정책 계산반복적으로 최적화MDP를 모를 때경험 데이터를 통한 근사적 학습TD 학습과 Monte Car..

Autonomous Car-[강화학습] 마르코프 결정 프로세스, MDP

마르코프 결정 프로세스, Markov Decision Process MDP: 순차적 의사결정 문제를 수학적으로 표현하기 위한 도구로, 현재 상태만으로 미래 상태를 예측할 수 있는 확률적 과정강화학습을 위한 환경을 수학적으로 설명해주는 하나의 툴이다.이때, 환경은 완전히 관측가능하다고 가정한다. 그리고 원하는 정보를 모두 획득 가능하다고 가정한다.마르코프 성질 : 미래는 오로지 현재에 의해 결정된다. = 현재가 주어졌을 때 미래는 과거와 독립적이다. = 미래를 알기위해서는 현재의 정보만으로 충분하다 e.g. 보드게임 같은경우는 현재 상태를 통해서 미래를 예측할 수 있으므로, 이는 "마르코프 성질을 갖는다고 할 수 있다." MDP의 목표는 최적의 정책, Oprimal Policy를 찾는 것이다. --상태, ..

Autonomous Car-[강화학습] 신뢰상한행동선택 Upper Confidence Board, 활용과 탐색 균형 맞춤 알고리즘

탐욕적 알고리즘 현재까지 가장 높은 보상을 준 선택을 반복 > 보상 최대화 전략탐욕적 알고리즘의 한계 : 단기적인 보상에 집중하여 초기 선택이 좋지 않다면 최적의 결과를 놓칠 가능성 존재국지적 최적해 : 가장 좋아 보이는 선택을 지속 > 다른 선택지 탐색 기회 소실탐욕적 알고리즘 한계의 예 : 일시적으로 높은 보상 제공 ε-그리디 알고리즘 : ε의 확률로 랜덤 선택하는 전략 추가> 이때 입실론은 0~1 사이 작은 값을 의미한다. UCB, Upper Confidence Bound 알고리즘 :아직 충분히 시도하지 않은 행동을 더 탐사해보자너무 자주 선택된 행동보다 덜 선택된 행동에 보너스를 주어 균형 잡힌 탐험이 가능ε-greedy와 달리 무작위(random) 가 아니라 정량적 판단에 기반UCB란, 탐색과..

Autonomous Car-[강화학습] 정의 및 구성요소 6가지, Agent, Environment, State, Action, Reward, Policy + 가치함수, 모델, 할인율

강화학습 : 경험을 통해 스스로 배우는 학습 방법*강화 : 행동을 의미, 어떤 상황에서 어떤 행동을 취할지 선택할 수 있는 능력 또는 지식이 강화되는 것보상 : 우리의 특정 행동을 강화해주는 역할을 하는 것, 긍정적 보상 뿐 아니라 특정 행동을 억제하는 부정적 보상도 있음, 강화학습을 가능하게 하는 매우 중요한 요소이다.자율주행에서 강화학습이란? : 실시간으로 변화하는 도로 상황에 대응하고 안전하게 목적지까지 운전하는 방법을 찾는 데 사용됨Agent가 Environment와 상호작용하면서, 최적의 Action을 학습하는 기계 학습AgentEnvironmentAction강화학습을 구성하는 핵심요소AgentEnvrionmentStateActionRewardPolicy각 구성 요소의 역할Agent : 학습의 ..

Autonomous Car-[강화학습] 핵심 구성요소 6가지, Agent, Environment, State, Action, Reward, Policy

강화학습, Reinforcement Learning : 어떤 Agent가 환경 안에서 행동( a )을 했을 때 얻게 되는 보상( r )을 사용해 학습하는 방법환경이라는 것은, 의사결정 주체인 Agent가 들어가있는 환경Agent가 Action을 취하게 되면, 그 Agent는 현 상태에서 다음 상태로 상태가 변화될 수 있다.따라서 state랑 Action은 중요한 개념이다.이 Action을 취하면 Reward를 받을 수 있다.Reward, 보상 : 주어진 state에 Action을 수행했을 때 얻게 되는 것Discount Factor, 할인인자 : 미래의 보상은 불확실성이 있기 때문에 그 가치를 현재의 가치보다 떨어뜨리는 비율Markov Decision Process( MDP ), 마르코프 결정과정Poli..

Autonomous Car-자율주행차에서 인지기술이란?

자율주행차 인지 기술이란? : 센서로부터 얻은 신호를 분석하여 차량 주변의 환경에 대한 정보를 얻는 과정을 의미자율주행에서 주변환경 요소에는 크게 두 가지로 나눌 수 있음1. 동적 환경 객체 : 시간에 따라서 그 위치와 상태가 계속해서 변화할 수 있는 객체 Ex. 타 차량, 보행자, 사이클리스트, 바이크2. 정적 환경 객체 : 위치가 잘 변하지 않는 객체 Ex. 차선, 건널목 횡단보도, 신호등, 교통표지판, 중앙 분리대 등인지기술에서는 어떤 일을 해야할까?1. 동적 객체의 검출 및 추적동적 객체의 검출이란 것은, 센서 신호를 분석하여 주변 동적 객체의 위치와 종류를 판별함동적 객체의 추적이라는 것은, 매 시점마다 얻은 검출 결과를 시간적으로 연결하여 추적함같은 객체끼리 시간 변화에 따라 변하는 객체를 서..