**Autonomous driving tech./*Paper review

[Paper review] SegFormer: Simple and Efficient Design for SemanticSegmentation with Transformers

2wnswoo 2025. 2. 1. 09:09
SegFormer


SegFormer는 이미지 분할을 위한 딥러닝 모델로, 특히 비디오 및 사진에서 객체를 정확하게 분할하는 데 사용됩니다. 이 모델은 Transformer 아키텍처를 기반으로 하여, 다양한 크기의 객체와 복잡한 배경에서 효과적으로 작동할 수 있도록 설계되었습니다.

계층적 구조임을 보임

*Resolution : 해상도

*Hierarchical : 계층적인

ViT, Visual Transformer

ViT(Visual Transformer)는 이미지 인식을 위해 설계된 딥러닝 모델로, Transformer 아키텍처를 기반으로 합니다. 전통적인 CNN( 합성곱 신경망 ) 대신 Transformer를 사용하여 이미지 데이터를 처리하는 방식이 특징입니다.

  • 패치 처리: 이미지를 작은 패치로 나눈 후, 각 패치를 입력으로 사용하여 Transformer에 전달합니다. 이 과정에서 이미지의 전역 정보를 효과적으로 캡처할 수 있습니다.
  • Attention Mechanism: Transformer의 핵심인 어텐션 메커니즘을 활용하여 이미지의 서로 다른 부분 간의 관계를 이해하고, 중요한 특징을 강조합니다.

V

 

Patch 수가 많아지면?


장점:

  • 세부 정보 포착: 더 많은 패치가 있다면 이미지의 더 작은 부분까지 분석할 수 있어 세밀한 특징을 잘 인식할 수 있습니다.
  • 전역 정보 활용: 다양한 패치를 통해 전체 이미지의 관계를 더 잘 이해할 수 있습니다.

단점:

  • 계산 비용 증가: 패치 수가 많아지면 처리해야 할 데이터가 증가하여 계산 비용(시간과 메모리)이 높아집니다.
    >> Computational cost가 많아짐.
  • 과적합 위험: 너무 많은 패치를 사용하면 모델이 훈련 데이터에 과적합(overfitting)될 위험이 있습니다.