전체 글 254

[강화학습] SARSA 알고리즘

State-Action-Reward-State-Action: Agent 가 현재 정책에 따라 행동을 선택하고, 그에 따라 얻은 보상을 바탕으로 행동가치함수(Q(s,a)를 업데이트함 > Agent는 행동가치함수를 활용하여 정책 업데이트 > 이 과정 반복 SARSA는 On-policy 알고리즘 SARSA는 행동가치함수 Q(s,a)를 학습해서 정책을 개선하고, 최적 정책에 수렴시키는 것 --On-policy 와 Off-policy 는 어떤 차이를 가질까?On-policy: Agent가 현재 사용하고 있는 정책을 개선하며 학습하는 방법탐험( exploration )과 활용( explitation )간 균형을 위해 탐욕 정책(=greedy정책) 같은 방법을 사용하여 학습*exploration: 아직 잘 모르는 ..

[강화학습] TD, MC 기법 비교

MC(Monte Carlo) 기법에피소드 전체가 종료된 후 데이터를 한꺼번에 활용하므로, 에피소드가 명확히 정의된 환경에서 효과적> 에피소드가 불완전 종료되거나, 연속적인 상황에서 적용하기 어려움Q. 연속적인 상황이 무엇인가??A. 명확한 에피소드 끝지점이 없는 것, 끝이 안남. e.g. 로봇이 종료를 하지 않고 계속 돌아다님.에피소드가 끝난 후에 얻은, 실제 보상의 평균을 통해 기대 보상을 추정하므로 추정치가 무편향적실제 보상 분포를 그대로 반영하기 때문에 예상 보상의 편향이 없다.TD(Temporal Difference) 기법반면, 다음 상태의 추정된 가치를 기반으로 보상을 업데이트하므로 약간의 편향이 발생 가능함그러나, 이 편향은 대부분의 환경에서 학습의 효율성을 높이는데 기여함분산측면에서? MC,..

06.30. Webinar with KANG Min-gyu

리워드 디자인 문제 (Reward Design Problem)정의: 에이전트에게 어떤 보상을 줄지 설계하는 일은 어렵고, 잘못 설계되면 위험한 행동을 유도할 수 있다.해결 방향: 리워드를 자동으로 설계하거나 인간의 선호도를 반영하는 방식이 대안으로 주목받고 있다.유레카 (Eureka)정의: LLM(Large Language Model)을 활용해 자동으로 리워드를 생성하는 프레임워크.특징: 사람이 직접 보상을 설계하지 않고, LLM이 행동에 대한 보상을 추론해 학습을 가이드함.장점: 인간의 선호도를 섬세하게 반영한 정책 설계가 가능하다.진화 알고리즘 (Evolutionary Algorithm / Search)정의: 생물의 진화처럼 다양한 정책을 변형(mutation)하고 선택(selection)하며 반복적..

카테고리 없음 2025.06.30

Transformer

주의 (Attention) 메커니즘은 순환 신경망(RNN)의 성능을 획기적으로 향상시켰음Seq2Seq 모델의 한계를 극복하고, 더 효과적으로 긴 시퀀스를 처리할 수 있게 해줌"Attention is All You Need?" 제안 논문Transformer, NLP 분야 혁신적으로 발전시킴높은 BLEU 점수를 얻었음*BLEU(Bilingual Evaluation Understudy): 기계 번역 성능 평가 지표 BLEU는 기계가 번역한 문장과 사람이 직접 번역한 참조 문장(Reference) 간의 유사성을 평가, 주로 0부터 1까지의 점수로 표현2016년경, NLP에서 가장 널리 사용되는 방법은, 양방향 LSTM을 이용하여 문장을 인코딩하는 것이였음.Attention 메커니즘을 활용하여 주목해야 할 정보에..

06월 11일 학습 내용

Optimization딥러닝 학습시 최대한 틀리지 않는 방향으로 학습해야 한다, 얼마나 틀리는지(loss)를 알게 하는 함수가 loss function(손실함수)이다. loss function 의 최솟값을 찾는 것을 학습 목표로 한다. 최소값을 찾아가는 것 최적화 = Optimization 이를 수행하는 알고리즘이 최적화 알고리즘 = Optimizer 이다. 옵티마이저 중에 가장 많이 쓰이는게 Adam 아담.Adam, Adaptive Moment Estimation : Momentum + AdaGrad 합친 것임학습이 빠르고 안정적이며, 대부분의 모델에서 별다른 튜닝 없이도 잘 작동하기 때문에 가장 많이 사용 장기 의존성 문제, The problems of long-term dependencies: ..

카테고리 없음 2025.06.11

~정리 필요~ 다중시점기하학

두 대의 카메라가 있을 때, 한 카메라의 이미지 평면에 나타난 다른 카메라의 중심 이미지를 epipole 카메라 중심으로 부터 이미지 평면(Image Plane)까지의 거리를 focal LengthLens Distortion이 있을 경우 Pinhole Camera Model이 정확하게 Camera Geometry를 나타낼 수 있다.카메라의 Intrinsic Parameter나 다양한 센서의 Extrinsic Parameter를 구하는 과정을 calibration 이라고 한다BEV detection Occlusion, 한 객체가 다른 객체에 가려지는 폐색 현상 적어 객체 탐지 정확도 상승F-PointNet은 RGB 영상과 LiDAR를 모두 사용하여 3D 객체를 검출합니다.카메라가 영상을 취득할 때 센서..

Regularization vs Normalization, Dropout, 도메인의 개념, 멀티스케일?, 디스크립터?

GAN(갠): 데이터를 생성하는 Generator와 진짜 데이터인지 판별하는 Discriminator실제 이미지와 비슷한 형태의 출력을 생성하도록 학습이 목표Regularization vs NormalizationRegularization (규제) 와 Normalization (정규화) 를 두 개를 비교를 잘 함.Regularization은 핵심 목적이 overfitting 과적합 방지임, 여기에는 Dropout과 L1, L2가 존재Normalization 정규화는, 학습 하는 데이터를 일정한 스케일로 맞춰주는 것임, 핵심 목적은 학습이 잘 되도록 하기 위함예를 들면, [0,1] 사이 값으로 조정 or 평균 0 표준편차 1로 만드는 것 Dropout드롭아웃 (Dropout)방식은 과대적합이 발생하기 쉬운..

5.30

🔷 "고차원 영상 (16밴드)" → 왜 16 밴드인가?📌 1. 정의:초분광 이미지는 일반 RGB(3채널)와 달리 수십~수백 개의 **스펙트럼 밴드(채널)**를 갖는 영상입니다.예를 들어, 400~1,000nm 파장을 16개의 밴드로 나누면, 각각은 약 37.5nm 간격의 파장 정보를 가집니다.📌 2. 16 밴드를 사용하는 이유:현실적 제약과 성능 균형 고려:100개 이상의 밴드를 사용할 경우, GPU 메모리와 연산량이 폭증하지만 너무 적으면 분광 구분이 어렵기 때문에 16~32개 정도가 많이 쓰임SEMES 보유 장비 또는 실험 장비의 분해능이 16밴드로 맞춰져 있을 가능성도 있음**주요 결함(스크래치, 파티클 등)**이 특정 스펙트럼 구간에서 잘 드러나는 경우, 굳이 고밴드가 필요하지 않음🔷 W,..

카테고리 없음 2025.05.30

05.25. Webinar with KANG Min-gyu

5월 25일 민규님의 질문Q1. DGCNN에서 각 점들에 대한 정보는 x,y,z 같은 거리 정보만 들어가는 것인지? 색깔 같은 다른 요소 정보도 포함된 것인지? Q2. 논문에서, IoU 측정은 어떤 대상으로 했는지? Ground Truth 처리 어떻게 하였는지?--1. Language to Rewards (L2R)자연어 명령을 보상 함수로 바꿔주는 방식예: “사람 근처에 멈춰줘” → 거리 + 속도 기반 보상 함수 생성2. IRL (Inverse Reinforcement Learning)사람(전문가)의 행동을 보고, **그 행동의 목적(보상 함수)**을 역으로 추정하는 학습예: 사람이 문을 열고 나가면, 로봇이 "왜 그렇게 했는지" 추론3. EUREKA강화학습 + 탐색 기반 전략을 결합하여, 효율적으로 최..

카테고리 없음 2025.05.25