**Autonomous driving tech./*Computer Vision

[ViT] AN IMAGE IS WORTH 16X16 WORDS:TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

2wnswoo 2025. 9. 5. 15:23

Abstract

  • 기존의 CNN에 의존하는 것이 필수불가결한 문제가 되지 않았음
  • CNN 기반 네트워크는 당시 SOTA 성능을 보였었음
  • ViT는 CNN 기반 네트워크에 비해 훨씬 더 연산량이 적었음

1 Introduction

  • CNN은 Inductive Biases 가 있음 / ViT는 없음
  • 평행이동 (translation) 

e.g. CNN, locality / translation(평행이동) equivalance

 

한계점 : CNN, RNN 둘다 global 한 영역을 보진 않았기에 이를 보완 할 연구 필요했음

 

pretrain : 본격적으로 모델 학습(task) 하기 전에 일반 데이터로 먼저 학습시키는 것

 

 

ViT

이미지를 patch단위로 나눈다.

이 나눈 patch들을 linear 하게 transformer 모델에 input으로 투입한다.

 

* text corpus : 인공지능 학습을 위해 모아논 덱스트 데이터 집합

* scalability(안정성) 가 좋다. = 데이터, 파라미터를 늘려도 성능이 안정적으로 상승하는 것을 의미

* sequence : 순서대로 나열된 것 e.g. "Hello"

* scaling successes : 모델의 크기, 데이터를 상승시켰을 때 성능이 크게 확장한 것을 의미

* 임베딩한다. : 어떤 추상적인 값을 숫자 벡터상에 넣는 것을 의미

* inductive biases : 지금까지 만나보지 못한 상황에 대해서 해결해 나가기 위해 미리하는 가정