2025/02/01 9

[NeRF] Instant Neural Graphics Primitives with a Multi-resolution Hash Encoding

*Neural Graphics Primitives : 신경망을 이용하여 생성되는 그래픽스의 기본 요소를 의미, 3D 모델, 텍스처, 조명 효과를 포함한다.*Multi-resolution Hash Encoding : 다중 해상도 해시 인코딩을 사용하여 데이터를 효율적으로 저장, 처리하는 방법을 나타낸다.* Aliasing( 계단 현상, 왜곡 현상 ) : 신호 처리나 그래픽에서 해상도가 충분하지 않아 발생하는 왜곡 현상을 의미해. 쉽게 말하면, 부드러워야 할 선이나 곡선이 깨져 보이거나, 원래 신호가 잘못된 형태로 표현되는 것 *NeRF( Representing Scenes as Neural Radiance Fields for View Synthesis ) : 2D 이미지 여러 장을 학습해서 3D 공간을 복..

[SLAM] Position, Sensing, Path planning

1) PositionGPS ( Gloabl Positioning System )실내에선 불가능, 오차가 발생함추측방법( Dead Reckoning )양 바퀴 축의 회전 값을 이용Dead Reckoning이란 GPS 사용 없이, 속도와 방향을 이용해 얼만큼 이동하였는지, 현재의 위치를 추정하는 방식이동 거리와 회전 값을 계산, 위치 측정바닥 슬립, 기계적, 누적 오차 발생IMU 등의 관성 센서, 필터로 위치 보상바퀴의 회전량 측정하는, 엔코더가 Dead Reckoning에 해당2) Sensing거리 센서LRF( Laser Range Finder ), 초음파센서, 적외선 거리센서, LiDAR비전 센서Depth camera, RGB camera, Stereo camera3) Path planning목적지까지 ..

[Paper review] SegFormer: Simple and Efficient Design for SemanticSegmentation with Transformers

SegFormerSegFormer는 이미지 분할을 위한 딥러닝 모델로, 특히 비디오 및 사진에서 객체를 정확하게 분할하는 데 사용됩니다. 이 모델은 Transformer 아키텍처를 기반으로 하여, 다양한 크기의 객체와 복잡한 배경에서 효과적으로 작동할 수 있도록 설계되었습니다.*Resolution : 해상도*Hierarchical : 계층적인ViT, Visual TransformerViT(Visual Transformer)는 이미지 인식을 위해 설계된 딥러닝 모델로, Transformer 아키텍처를 기반으로 합니다. 전통적인 CNN( 합성곱 신경망 ) 대신 Transformer를 사용하여 이미지 데이터를 처리하는 방식이 특징입니다.패치 처리: 이미지를 작은 패치로 나눈 후, 각 패치를 입력으로 사용하여 ..

[SLAM] Image formation

image data란?3D 공간의 정보를 카메라 장비를 통해 2D의 디지털 포멧으로 변환시켜 얻어낸 데이터Intensity 값은 0~255를 사용함. ( 8bit int를 사용해서 표현 )Grayscale image -> 0 ( 어두움 ) ~ 255 ( 밝음 )1픽셀이 8비트의 저장공간을 차지함*Grayscale : 색상이 없는 흑백 이미지를 나타내는 방식( 흑색에서~백색까지, 다양한 회색 톤 )RGB image -> 0, 0, 0 ( 어두움 ) ~ 255, 255, 255 ( 밝음 )1픽셀이 8x3 = 24 비트의 저장공간을 차지함RGB-D 이미지인 경우 Depth 데이터를 포함 ( 16bit int를 사용해서 표현 )3-D Mapping and Localization using RGB-D Camera..