전체 글 261

[ViT] AN IMAGE IS WORTH 16X16 WORDS:TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

Abstract기존의 CNN에 의존하는 것이 필수불가결한 문제가 되지 않았음CNN 기반 네트워크는 당시 SOTA 성능을 보였었음ViT는 CNN 기반 네트워크에 비해 훨씬 더 연산량이 적었음1 IntroductionCNN은 Inductive Biases 가 있음 / ViT는 없음평행이동 (translation) e.g. CNN, locality / translation(평행이동) equivalance 한계점 : CNN, RNN 둘다 global 한 영역을 보진 않았기에 이를 보완 할 연구 필요했음 pretrain : 본격적으로 모델 학습(task) 하기 전에 일반 데이터로 먼저 학습시키는 것 ViT이미지를 patch단위로 나눈다.이 나눈 patch들을 linear 하게 transformer 모델에 inp..

컴퓨터 비전과 디지털 영상 이해

컬러 영상, 한 픽셀 표현 위해 3개의 채널 사용 (3byte 필요)*알파채널: 0: 완전 투명(transparent) 1: 완전 불투명 (opaque)OpenCVIntel에서 개발함2006년부터 지금까지 계속 개발 중임 ( 4.11.0 / 25.07.21 기준) --인터프리터: 코드를 한 줄씩 읽는 것을 의미컴파일러: 전체 코드를 한 번에 읽는 것을 의미sys 모듈: 인터프리터를 제어하는 데 사용 모듈

Knowledge Distillation

Knowledge Distillation 등장 이유?아래의 두 모델 이 있을때복잡한 모델 T : 예측 정확도 99% + 예측 소요 시간 3시간단순한 모델 S : 예측 정확도 90% + 예측 소요 시간 3분복잡한 모델 T가 학습한 generalization 능력을 단순한 모델 S에 전달 해주는 것Knowledge Distillation 등장 시기? Knowledge Distillation 하는 방법?*cumbersome model: 크고 복잡하고 학습이 잘 된 고성능 모델Distilling the Knowledge in a Neural Network Abstract머신러닝 알고리즘의 성능을 향상시키는 가장 쉬운 방법은 같은 데이터셋에 수많은 다른 모델들을 학습시키고, 예측값을 평균내는 방법임지식을 Dist..

07.08. Webinar with KANG Min-gyu

모델과 연구 트렌드FLOPs연산량을 나타내는 지표. 파라미터 사이즈와 함께 주의 깊게 봐야 한다.리뷰한 Swin transformer 모델에 대한, 김중락 교수님의 코멘트지표를 보았을 때, ResNet과 Swin Transformer의 성능 차이는 크지 않다.Groot N12025년 3월에 발표된 모델. NVIDIA의 GPU Technology Conference(GTC)에서 공개됐다.*GTC: 반년 마다 열려 연에 두 번 개최되는 NVIDIA 컨퍼런스임수식 없이 기존 레퍼런스 방법을 설명하는 쪽에 가깝다.요즘의 많은 논문의 트렌트가 수식 없이 “모델이 좋다”, “성능이 높다”로 마무리된다.n1 Gr00t 논문 구조는 기존 논문 두 개를 엮은 형태로 Stage 1, Stage 2로 구성된다.LLM, Vi..

[강화학습] Q-learning

Q-learning실제 행동이 아니라 이상적인 행동을 기준으로 하므로, 안정성이 떨어지는 환경에서 불안정할 수 있음강화학습에서 SARSA와 함께 언급되는 대표적 TD 학습 방법 대표적 TD 방식(한 시나리오가 끝나기전에 매 step 마다 더 좋은 action할 수 있도록 가치 함수를 업데이트 하여 더 좋은 정책으로 수렴하도록 하는 방식) TD방식중에 Qlearning 과 SARSA의 차이가 무엇? *행동 정책: 실제로 환경과 상호작용하며 action을 선택하는 정책*타깃 정책: 학습(업데이트) 하고자 하는 정책 SARSA 방식: 행동정책 = 타깃정책Q-Learning 방식: 행동정책 ≠ 타깃 정책 Q-learning의 장점실제 행동을 기준으로 하는 것이 아니라 최적의 행동을 기준으로 가치 함수를 업데..

[강화학습] SARSA 알고리즘

State-Action-Reward-State-Action: Agent 가 현재 정책에 따라 행동을 선택하고, 그에 따라 얻은 보상을 바탕으로 행동가치함수(Q(s,a)를 업데이트함 > Agent는 행동가치함수를 활용하여 정책 업데이트 > 이 과정 반복 SARSA는 On-policy 알고리즘 SARSA는 행동가치함수 Q(s,a)를 학습해서 정책을 개선하고, 최적 정책에 수렴시키는 것 --On-policy 와 Off-policy 는 어떤 차이를 가질까?On-policy: Agent가 현재 사용하고 있는 정책을 개선하며 학습하는 방법탐험( exploration )과 활용( explitation )간 균형을 위해 탐욕 정책(=greedy정책) 같은 방법을 사용하여 학습*exploration: 아직 잘 모르는 ..

[강화학습] TD, MC 기법 비교

MC(Monte Carlo) 기법에피소드 전체가 종료된 후 데이터를 한꺼번에 활용하므로, 에피소드가 명확히 정의된 환경에서 효과적> 에피소드가 불완전 종료되거나, 연속적인 상황에서 적용하기 어려움Q. 연속적인 상황이 무엇인가??A. 명확한 에피소드 끝지점이 없는 것, 끝이 안남. e.g. 로봇이 종료를 하지 않고 계속 돌아다님.에피소드가 끝난 후에 얻은, 실제 보상의 평균을 통해 기대 보상을 추정하므로 추정치가 무편향적실제 보상 분포를 그대로 반영하기 때문에 예상 보상의 편향이 없다.TD(Temporal Difference) 기법반면, 다음 상태의 추정된 가치를 기반으로 보상을 업데이트하므로 약간의 편향이 발생 가능함그러나, 이 편향은 대부분의 환경에서 학습의 효율성을 높이는데 기여함분산측면에서? MC,..

06.30. Webinar with KANG Min-gyu

리워드 디자인 문제 (Reward Design Problem)정의: 에이전트에게 어떤 보상을 줄지 설계하는 일은 어렵고, 잘못 설계되면 위험한 행동을 유도할 수 있다.해결 방향: 리워드를 자동으로 설계하거나 인간의 선호도를 반영하는 방식이 대안으로 주목받고 있다.유레카 (Eureka)정의: LLM(Large Language Model)을 활용해 자동으로 리워드를 생성하는 프레임워크.특징: 사람이 직접 보상을 설계하지 않고, LLM이 행동에 대한 보상을 추론해 학습을 가이드함.장점: 인간의 선호도를 섬세하게 반영한 정책 설계가 가능하다.진화 알고리즘 (Evolutionary Algorithm / Search)정의: 생물의 진화처럼 다양한 정책을 변형(mutation)하고 선택(selection)하며 반복적..

카테고리 없음 2025.06.30