
1. 왜 Swin Transformer가 나왔나?문제: 원래 비전 트랜스포머(ViT)는 이미지를 조각(패치)으로 잘라서 모두 서로 비교(Self-Attention)해요.근데 이미지 크기가 커지면(고해상도) 조각 수가 미친 듯이 많아지고, 계산량이 터져버려요.해결책: Swin Transformer는 “한 번에 다 비교하지 말고, 작은 창(Window) 안에서만 비교하자”는 아이디어예요.그래서 계산량이 이미지 크기에 따라 선형(linear) 으로 늘어나도록 설계했어요 → 훨씬 효율적!2. 핵심 아이디어 두 개Hierarchical (계층적 구조)ViT는 이미지를 조각낸 뒤 그냥 끝까지 같은 크기의 패치로만 처리.Swin은 작은 패치부터 시작해서 점점 합치면서 큰 패치로 가요.이렇게 하면 작은 물체부터 큰 물..