Abstract
- 기존의 CNN에 의존하는 것이 필수불가결한 문제가 되지 않았음
- CNN 기반 네트워크는 당시 SOTA 성능을 보였었음
- ViT는 CNN 기반 네트워크에 비해 훨씬 더 연산량이 적었음
1 Introduction
- CNN은 Inductive Biases 가 있음 / ViT는 없음
- 평행이동 (translation)
e.g. CNN, locality / translation(평행이동) equivalance
한계점 : CNN, RNN 둘다 global 한 영역을 보진 않았기에 이를 보완 할 연구 필요했음
pretrain : 본격적으로 모델 학습(task) 하기 전에 일반 데이터로 먼저 학습시키는 것
ViT
이미지를 patch단위로 나눈다.
이 나눈 patch들을 linear 하게 transformer 모델에 input으로 투입한다.
* text corpus : 인공지능 학습을 위해 모아논 덱스트 데이터 집합
* scalability(안정성) 가 좋다. = 데이터, 파라미터를 늘려도 성능이 안정적으로 상승하는 것을 의미
* sequence : 순서대로 나열된 것 e.g. "Hello"
* scaling successes : 모델의 크기, 데이터를 상승시켰을 때 성능이 크게 확장한 것을 의미
* 임베딩한다. : 어떤 추상적인 값을 숫자 벡터상에 넣는 것을 의미
* inductive biases : 지금까지 만나보지 못한 상황에 대해서 해결해 나가기 위해 미리하는 가정
'**Autonomous driving tech. > *Computer Vision' 카테고리의 다른 글
Transformer (1) | 2025.06.27 |
---|---|
[Computer Vision] 04 KLT algorithm, VOT, MOT, SORT algorithm (0) | 2025.03.10 |
[Computer Vision] 03 IoU, mAP, BCS, Backbone Architecture (0) | 2025.03.08 |
[Computer Vision] 02 Machine Learning 4-Step (0) | 2025.03.06 |
[Computer Vision] 01 (0) | 2025.03.05 |