SegFormer
SegFormer는 이미지 분할을 위한 딥러닝 모델로, 특히 비디오 및 사진에서 객체를 정확하게 분할하는 데 사용됩니다. 이 모델은 Transformer 아키텍처를 기반으로 하여, 다양한 크기의 객체와 복잡한 배경에서 효과적으로 작동할 수 있도록 설계되었습니다.
*Resolution : 해상도
*Hierarchical : 계층적인
ViT, Visual Transformer
ViT(Visual Transformer)는 이미지 인식을 위해 설계된 딥러닝 모델로, Transformer 아키텍처를 기반으로 합니다. 전통적인 CNN( 합성곱 신경망 ) 대신 Transformer를 사용하여 이미지 데이터를 처리하는 방식이 특징입니다.
- 패치 처리: 이미지를 작은 패치로 나눈 후, 각 패치를 입력으로 사용하여 Transformer에 전달합니다. 이 과정에서 이미지의 전역 정보를 효과적으로 캡처할 수 있습니다.
- Attention Mechanism: Transformer의 핵심인 어텐션 메커니즘을 활용하여 이미지의 서로 다른 부분 간의 관계를 이해하고, 중요한 특징을 강조합니다.
Patch 수가 많아지면?
장점:
- 세부 정보 포착: 더 많은 패치가 있다면 이미지의 더 작은 부분까지 분석할 수 있어 세밀한 특징을 잘 인식할 수 있습니다.
- 전역 정보 활용: 다양한 패치를 통해 전체 이미지의 관계를 더 잘 이해할 수 있습니다.
단점:
- 계산 비용 증가: 패치 수가 많아지면 처리해야 할 데이터가 증가하여 계산 비용(시간과 메모리)이 높아집니다.
>> Computational cost가 많아짐. - 과적합 위험: 너무 많은 패치를 사용하면 모델이 훈련 데이터에 과적합(overfitting)될 위험이 있습니다.