2025/02/01 8

[Paper review] SegFormer: Simple and Efficient Design for SemanticSegmentation with Transformers

SegFormerSegFormer는 이미지 분할을 위한 딥러닝 모델로, 특히 비디오 및 사진에서 객체를 정확하게 분할하는 데 사용됩니다. 이 모델은 Transformer 아키텍처를 기반으로 하여, 다양한 크기의 객체와 복잡한 배경에서 효과적으로 작동할 수 있도록 설계되었습니다.*Resolution : 해상도*Hierarchical : 계층적인ViT, Visual TransformerViT(Visual Transformer)는 이미지 인식을 위해 설계된 딥러닝 모델로, Transformer 아키텍처를 기반으로 합니다. 전통적인 CNN( 합성곱 신경망 ) 대신 Transformer를 사용하여 이미지 데이터를 처리하는 방식이 특징입니다.패치 처리: 이미지를 작은 패치로 나눈 후, 각 패치를 입력으로 사용하여 ..

Image formation

image data란?3D 공간의 정보를 카메라 장비를 통해 2D의 디지털 포멧으로 변환시켜 얻어낸 데이터Intensity 값은 0~255를 사용함. ( 8bit int를 사용해서 표현 )Grayscale image -> 0 ( 어두움 ) ~ 255 ( 밝음 )1픽셀이 8비트의 저장공간을 차지함*Grayscale : 색상이 없는 흑백 이미지를 나타내는 방식( 흑색에서~백색까지, 다양한 회색 톤 )RGB image -> 0, 0, 0 ( 어두움 ) ~ 255, 255, 255 ( 밝음 )1픽셀이 8x3 = 24 비트의 저장공간을 차지함RGB-D 이미지인 경우 Depth 데이터를 포함 ( 16bit int를 사용해서 표현 )3-D Mapping and Localization using RGB-D Camera..