전체 글 262

Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

1. 왜 Swin Transformer가 나왔나?문제: 원래 비전 트랜스포머(ViT)는 이미지를 조각(패치)으로 잘라서 모두 서로 비교(Self-Attention)해요.근데 이미지 크기가 커지면(고해상도) 조각 수가 미친 듯이 많아지고, 계산량이 터져버려요.해결책: Swin Transformer는 “한 번에 다 비교하지 말고, 작은 창(Window) 안에서만 비교하자”는 아이디어예요.그래서 계산량이 이미지 크기에 따라 선형(linear) 으로 늘어나도록 설계했어요 → 훨씬 효율적!2. 핵심 아이디어 두 개Hierarchical (계층적 구조)ViT는 이미지를 조각낸 뒤 그냥 끝까지 같은 크기의 패치로만 처리.Swin은 작은 패치부터 시작해서 점점 합치면서 큰 패치로 가요.이렇게 하면 작은 물체부터 큰 물..

[ViT] AN IMAGE IS WORTH 16X16 WORDS:TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

Abstract기존의 CNN에 의존하는 것이 필수불가결한 문제가 되지 않았음CNN 기반 네트워크는 당시 SOTA 성능을 보였었음ViT는 CNN 기반 네트워크에 비해 훨씬 더 연산량이 적었음1 IntroductionCNN은 Inductive Biases 가 있음 / ViT는 없음평행이동 (translation) e.g. CNN, locality / translation(평행이동) equivalance 한계점 : CNN, RNN 둘다 global 한 영역을 보진 않았기에 이를 보완 할 연구 필요했음 pretrain : 본격적으로 모델 학습(task) 하기 전에 일반 데이터로 먼저 학습시키는 것 ViT이미지를 patch단위로 나눈다.이 나눈 patch들을 linear 하게 transformer 모델에 inp..

컴퓨터 비전과 디지털 영상 이해

컬러 영상, 한 픽셀 표현 위해 3개의 채널 사용 (3byte 필요)*알파채널: 0: 완전 투명(transparent) 1: 완전 불투명 (opaque)OpenCVIntel에서 개발함2006년부터 지금까지 계속 개발 중임 ( 4.11.0 / 25.07.21 기준) --인터프리터: 코드를 한 줄씩 읽는 것을 의미컴파일러: 전체 코드를 한 번에 읽는 것을 의미sys 모듈: 인터프리터를 제어하는 데 사용 모듈

Knowledge Distillation

Knowledge Distillation 등장 이유?아래의 두 모델 이 있을때복잡한 모델 T : 예측 정확도 99% + 예측 소요 시간 3시간단순한 모델 S : 예측 정확도 90% + 예측 소요 시간 3분복잡한 모델 T가 학습한 generalization 능력을 단순한 모델 S에 전달 해주는 것Knowledge Distillation 등장 시기? Knowledge Distillation 하는 방법?*cumbersome model: 크고 복잡하고 학습이 잘 된 고성능 모델Distilling the Knowledge in a Neural Network Abstract머신러닝 알고리즘의 성능을 향상시키는 가장 쉬운 방법은 같은 데이터셋에 수많은 다른 모델들을 학습시키고, 예측값을 평균내는 방법임지식을 Dist..

07.08. Webinar with KANG Min-gyu

모델과 연구 트렌드FLOPs연산량을 나타내는 지표. 파라미터 사이즈와 함께 주의 깊게 봐야 한다.리뷰한 Swin transformer 모델에 대한, 김중락 교수님의 코멘트지표를 보았을 때, ResNet과 Swin Transformer의 성능 차이는 크지 않다.Groot N12025년 3월에 발표된 모델. NVIDIA의 GPU Technology Conference(GTC)에서 공개됐다.*GTC: 반년 마다 열려 연에 두 번 개최되는 NVIDIA 컨퍼런스임수식 없이 기존 레퍼런스 방법을 설명하는 쪽에 가깝다.요즘의 많은 논문의 트렌트가 수식 없이 “모델이 좋다”, “성능이 높다”로 마무리된다.n1 Gr00t 논문 구조는 기존 논문 두 개를 엮은 형태로 Stage 1, Stage 2로 구성된다.LLM, Vi..

[강화학습] Q-learning

Q-learning실제 행동이 아니라 이상적인 행동을 기준으로 하므로, 안정성이 떨어지는 환경에서 불안정할 수 있음강화학습에서 SARSA와 함께 언급되는 대표적 TD 학습 방법 대표적 TD 방식(한 시나리오가 끝나기전에 매 step 마다 더 좋은 action할 수 있도록 가치 함수를 업데이트 하여 더 좋은 정책으로 수렴하도록 하는 방식) TD방식중에 Qlearning 과 SARSA의 차이가 무엇? *행동 정책: 실제로 환경과 상호작용하며 action을 선택하는 정책*타깃 정책: 학습(업데이트) 하고자 하는 정책 SARSA 방식: 행동정책 = 타깃정책Q-Learning 방식: 행동정책 ≠ 타깃 정책 Q-learning의 장점실제 행동을 기준으로 하는 것이 아니라 최적의 행동을 기준으로 가치 함수를 업데..

[강화학습] SARSA 알고리즘

State-Action-Reward-State-Action: Agent 가 현재 정책에 따라 행동을 선택하고, 그에 따라 얻은 보상을 바탕으로 행동가치함수(Q(s,a)를 업데이트함 > Agent는 행동가치함수를 활용하여 정책 업데이트 > 이 과정 반복 SARSA는 On-policy 알고리즘 SARSA는 행동가치함수 Q(s,a)를 학습해서 정책을 개선하고, 최적 정책에 수렴시키는 것 --On-policy 와 Off-policy 는 어떤 차이를 가질까?On-policy: Agent가 현재 사용하고 있는 정책을 개선하며 학습하는 방법탐험( exploration )과 활용( explitation )간 균형을 위해 탐욕 정책(=greedy정책) 같은 방법을 사용하여 학습*exploration: 아직 잘 모르는 ..

[강화학습] TD, MC 기법 비교

MC(Monte Carlo) 기법에피소드 전체가 종료된 후 데이터를 한꺼번에 활용하므로, 에피소드가 명확히 정의된 환경에서 효과적> 에피소드가 불완전 종료되거나, 연속적인 상황에서 적용하기 어려움Q. 연속적인 상황이 무엇인가??A. 명확한 에피소드 끝지점이 없는 것, 끝이 안남. e.g. 로봇이 종료를 하지 않고 계속 돌아다님.에피소드가 끝난 후에 얻은, 실제 보상의 평균을 통해 기대 보상을 추정하므로 추정치가 무편향적실제 보상 분포를 그대로 반영하기 때문에 예상 보상의 편향이 없다.TD(Temporal Difference) 기법반면, 다음 상태의 추정된 가치를 기반으로 보상을 업데이트하므로 약간의 편향이 발생 가능함그러나, 이 편향은 대부분의 환경에서 학습의 효율성을 높이는데 기여함분산측면에서? MC,..