**Autonomous driving tech./*Machine-Learning 21

Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

1. 왜 Swin Transformer가 나왔나?문제: 원래 비전 트랜스포머(ViT)는 이미지를 조각(패치)으로 잘라서 모두 서로 비교(Self-Attention)해요.근데 이미지 크기가 커지면(고해상도) 조각 수가 미친 듯이 많아지고, 계산량이 터져버려요.해결책: Swin Transformer는 “한 번에 다 비교하지 말고, 작은 창(Window) 안에서만 비교하자”는 아이디어예요.그래서 계산량이 이미지 크기에 따라 선형(linear) 으로 늘어나도록 설계했어요 → 훨씬 효율적!2. 핵심 아이디어 두 개Hierarchical (계층적 구조)ViT는 이미지를 조각낸 뒤 그냥 끝까지 같은 크기의 패치로만 처리.Swin은 작은 패치부터 시작해서 점점 합치면서 큰 패치로 가요.이렇게 하면 작은 물체부터 큰 물..

[강화학습] Q-learning

Q-learning실제 행동이 아니라 이상적인 행동을 기준으로 하므로, 안정성이 떨어지는 환경에서 불안정할 수 있음강화학습에서 SARSA와 함께 언급되는 대표적 TD 학습 방법 대표적 TD 방식(한 시나리오가 끝나기전에 매 step 마다 더 좋은 action할 수 있도록 가치 함수를 업데이트 하여 더 좋은 정책으로 수렴하도록 하는 방식) TD방식중에 Qlearning 과 SARSA의 차이가 무엇? *행동 정책: 실제로 환경과 상호작용하며 action을 선택하는 정책*타깃 정책: 학습(업데이트) 하고자 하는 정책 SARSA 방식: 행동정책 = 타깃정책Q-Learning 방식: 행동정책 ≠ 타깃 정책 Q-learning의 장점실제 행동을 기준으로 하는 것이 아니라 최적의 행동을 기준으로 가치 함수를 업데..

[강화학습] SARSA 알고리즘

State-Action-Reward-State-Action: Agent 가 현재 정책에 따라 행동을 선택하고, 그에 따라 얻은 보상을 바탕으로 행동가치함수(Q(s,a)를 업데이트함 > Agent는 행동가치함수를 활용하여 정책 업데이트 > 이 과정 반복 SARSA는 On-policy 알고리즘 SARSA는 행동가치함수 Q(s,a)를 학습해서 정책을 개선하고, 최적 정책에 수렴시키는 것 --On-policy 와 Off-policy 는 어떤 차이를 가질까?On-policy: Agent가 현재 사용하고 있는 정책을 개선하며 학습하는 방법탐험( exploration )과 활용( explitation )간 균형을 위해 탐욕 정책(=greedy정책) 같은 방법을 사용하여 학습*exploration: 아직 잘 모르는 ..

[강화학습] TD, MC 기법 비교

MC(Monte Carlo) 기법에피소드 전체가 종료된 후 데이터를 한꺼번에 활용하므로, 에피소드가 명확히 정의된 환경에서 효과적> 에피소드가 불완전 종료되거나, 연속적인 상황에서 적용하기 어려움Q. 연속적인 상황이 무엇인가??A. 명확한 에피소드 끝지점이 없는 것, 끝이 안남. e.g. 로봇이 종료를 하지 않고 계속 돌아다님.에피소드가 끝난 후에 얻은, 실제 보상의 평균을 통해 기대 보상을 추정하므로 추정치가 무편향적실제 보상 분포를 그대로 반영하기 때문에 예상 보상의 편향이 없다.TD(Temporal Difference) 기법반면, 다음 상태의 추정된 가치를 기반으로 보상을 업데이트하므로 약간의 편향이 발생 가능함그러나, 이 편향은 대부분의 환경에서 학습의 효율성을 높이는데 기여함분산측면에서? MC,..

Autonmous Car-[강화학습]

상태의 가치 추정을 위해 얻은 보상 값을 다루는 방식에 따라 구분- 최초 접촉, first-visit 방식에이전트가 특정 상태에 처음 도달했을 때의 보상만을 가치 평가에 사용하는 방식, 첫 방문 보상만 반영함에이전트가 게임을 진행하면서 처음으로 상태 s에 도달했을 때부터 종료 시점까지의 보상만 누적하여 상태 s의 가치를 추정이후 게임에서 상태 s에 다시 도달하더라도, 해당 게임 내에서 처음 방문한 시점의 보상만 반영- 모든 접촉, every-visit 방식에이전트가 특정 상태에 도달할 때마다 모든 방문에 대해 보상을 누적하여 가치 평가에 사용하는 방식에이전트가 상태 s에 모든 도달 시점다의 보상을 활용하여 평균값으로 상태 s의 가치를 추정 많은 경험을 통해 가치를 추정하는 방식이, 몬테카를로 방법론이다!..

Autonomous Car-[강화학습] 벨만 방정식(이해 완전히 안됨), 몬테카를로

정책 : 어떠한 상태에서 Agent가 어떠한 행동을 할지 결정하는 규칙벨만 방정식가치, Value를 계산할 때 벨만 방정식을 사용함시점 t에서 value랑 t+1 value 사이의 관계를 다룸, 재귀함수 성격을 가짐*재귀함수 : 자기 자신을 호출하는 함수 ( e.g 피보나치 수열, 0,1,2,3,5,8.13 앞의 첫번째항과 두번째항을 계속해서 더하는 구조임 )모델 프리, model free : MDP를 모를 때 학습하는 접근법모델 기반, model-based : MDP를 알고 있을 때 학습하는 접근법 ( 경험에 의한 평균값으로 계산 )벨만 기대 방정식 : 특정 정책을 따를 때 상태 가치를 다룸벨만 최적 방정식 : 최적 정책을 바로 구하는 것이 목표가능한 정책 중 가장 높은 가치를 제공하는 정책을 선택최적..

Autonomous Car-[강화학습] MDP가 있을때 없을때, 몬테카를로, TD방법

몬테카를로 방법환경과 상호작용하며, 각 에피소드의 실제 보상을 관찰하여 기댓값 추정모든 상태를 직접 탐색환경이 에피소드 기반일 때 효과적이다.각 경로의 총 보상 계산시간차, Temporal-Difference, TD 방법부트스트랩 접근에피소드 내 매 단계에서 상태 또는 행동 가치를 직접 업데이트각 단계에서 보상 및 기대 가치 업데이트Q-러닝, Off-policy Conotrol행동 가치를 직접 학습가장 높은 가치를 가지는 행동을 선택하는 정책SARSA, On-policy Control정책하에서 행동 가치 학습정책의 실제 실행 결과를 기반으로 학습--MDP를 알 때 상태 전이 확률과 보상 수학적 활용가치와 정책 계산반복적으로 최적화MDP를 모를 때경험 데이터를 통한 근사적 학습TD 학습과 Monte Car..

Autonomous Car-[강화학습] 마르코프 결정 프로세스, MDP

마르코프 결정 프로세스, Markov Decision Process MDP: 순차적 의사결정 문제를 수학적으로 표현하기 위한 도구로, 현재 상태만으로 미래 상태를 예측할 수 있는 확률적 과정강화학습을 위한 환경을 수학적으로 설명해주는 하나의 툴이다.이때, 환경은 완전히 관측가능하다고 가정한다. 그리고 원하는 정보를 모두 획득 가능하다고 가정한다.마르코프 성질 : 미래는 오로지 현재에 의해 결정된다. = 현재가 주어졌을 때 미래는 과거와 독립적이다. = 미래를 알기위해서는 현재의 정보만으로 충분하다 e.g. 보드게임 같은경우는 현재 상태를 통해서 미래를 예측할 수 있으므로, 이는 "마르코프 성질을 갖는다고 할 수 있다." MDP의 목표는 최적의 정책, Oprimal Policy를 찾는 것이다. --상태, ..

Autonomous Car-[강화학습] 신뢰상한행동선택 Upper Confidence Board, 활용과 탐색 균형 맞춤 알고리즘

탐욕적 알고리즘 현재까지 가장 높은 보상을 준 선택을 반복 > 보상 최대화 전략탐욕적 알고리즘의 한계 : 단기적인 보상에 집중하여 초기 선택이 좋지 않다면 최적의 결과를 놓칠 가능성 존재국지적 최적해 : 가장 좋아 보이는 선택을 지속 > 다른 선택지 탐색 기회 소실탐욕적 알고리즘 한계의 예 : 일시적으로 높은 보상 제공 ε-그리디 알고리즘 : ε의 확률로 랜덤 선택하는 전략 추가> 이때 입실론은 0~1 사이 작은 값을 의미한다. UCB, Upper Confidence Bound 알고리즘 :아직 충분히 시도하지 않은 행동을 더 탐사해보자너무 자주 선택된 행동보다 덜 선택된 행동에 보너스를 주어 균형 잡힌 탐험이 가능ε-greedy와 달리 무작위(random) 가 아니라 정량적 판단에 기반UCB란, 탐색과..