Abstract기존의 CNN에 의존하는 것이 필수불가결한 문제가 되지 않았음CNN 기반 네트워크는 당시 SOTA 성능을 보였었음ViT는 CNN 기반 네트워크에 비해 훨씬 더 연산량이 적었음1 IntroductionCNN은 Inductive Biases 가 있음 / ViT는 없음평행이동 (translation) e.g. CNN, locality / translation(평행이동) equivalance 한계점 : CNN, RNN 둘다 global 한 영역을 보진 않았기에 이를 보완 할 연구 필요했음 pretrain : 본격적으로 모델 학습(task) 하기 전에 일반 데이터로 먼저 학습시키는 것 ViT이미지를 patch단위로 나눈다.이 나눈 patch들을 linear 하게 transformer 모델에 inp..