**Autonomous driving tech./*Computer Vision

[Computer Vision] 04 KLT algorithm, VOT, MOT, SORT algorithm

2wnswoo 2025. 3. 10. 14:13

KLT Algorithm, Kanade-Lucas-Tomasi Algorithm
  • 전통적인 Computer Vision Algorithm으로 별도의 학습 데이터가 필요 없이 객체 Tracking 이 가능.
  • 1980년대와 1990년대 초반에 걸쳐 개발된 알고리즘임
  • 딥러닝 모델 X 아님.
  • Real-Time으로 Object Detection 할 때 활용
  • 빠르고 가벼운 알고리즘이지만, 빠른 움직임과 조명 변화에는 약함
  • KLT는 지역 특징을 Tracking 하므로 뚜렷하게 특징점이 나타나지 않는 물체를 추적하지 못함

Tracking을 추적할 물체의 개수에 따른 이진 분류

VOT, Visual Object Tracking, 단일 물체 추적
  • 초기 프레임에서 대상을 하나 지정하고, 하나의 객체만 추적하는 기법
  • 빠른 속도로 추적 가능하다. 일반적으로 MOT보다 가벼움
  • Ex. 특정 차량만 추적
MOT, Multi-Object Tracking, 다중 물체 추적
  • 여러 개의 물체를 동시에 추적하는 기법
  • 객체를 자동으로 감지하고 ID를 부여
  • Ex. 자율주행, 보행자 감지
  • 주요 알고리즘 :  SORT, DeepSORT

--

SORT, Simple Online and Real-time Tracking
  • 전통적인 Computer Vision Algorithm
  • Object Detection + Kalman Filter + Hungarian Algorithm을 조합하여 작동
    • Hungarian Algorithm은 여러 개의 선택지 중에서 최적의 매칭을 찾아주는 알고리즘, 최고의 짝을 찾는 방법
  • Real-Time Multi-Object Tracking algorithm으로, 빠르고 가벼운 것이 장점
Transformer
  • NLP와 CV분야에서 강력한 성능을 보이는 딥러닝 모델이다.
  • 트랜스포머는 Encoder 와 Decoder 로 구성
    • Encoder > 입력 데이터를 통하여 분석하고 이해
    • Decoder > 분석된 정보를 바탕으로 행동을 결정
    • Self-Attention : 중요한 정보에 더 집중하도록 도와주는 기술
  • 원래 Transformer는 언어 번역, NLP를 위해 개발되었음
    • *NLP, Natural Language Processing : 자연어 처리는 컴퓨터가 인간의 언어, 자연어를 이해하고 처리할 수 있는 기술을 의미 Ex. 번역, 챗봇, 음성인식
  • 단어들로 구성된 문장은 1차원 구조의 데이터인 반면 영상, 화소는 2차원 구조여서 기존의 Transformer의 형태를 변형해야 했음 > 이때 등장한 것이 바로 ViT, Vision Transformer
DETR, DEtection TRansformer 
  • 2020년 05월 Facebook AI Research 팀의 Nicolas Carion이 개발
  • 최초로 Transformer를 사용해서 객체 탐지를 수행한 모델, CNN 없이 Transformer 만으로 객체 탐지가 가능하다는 걸 증명한 최초 모델
ViT, Vision Transformer
  • 2020년 10월 출시, DETR 보다 늦게 나왔지만 객체 탐지 뿐만 아니라 세그멘테이션 등이 가능해서 범용적인 모델
  • Transformer를 이미지와 영상 처리에 맞게 변형한 것
  • 이미지를 픽셀 단위로 보지 않고 작은 조각, Patch로 나눈 다음 이 Patch를 단어처럼 처리함
  • Patch 단위로 처리하는 방식
Swin Transformer
  • 2021 03월 Microsoft Research Asia 팀에서 개발한 모델
  • ViT의 연산량이 많다는 단점을 개선한 모델

*Swin = Shifted Windows : 창을 이동하며 학습

*Self-Attention : 전체를 참고하면서 중요한 부분에 더 집중하는 기술   Ex. 사람 얼굴

 

--

 

Active Sensor VS Passive Sensor, 능동 센서 VS 수동 센서
  • Active Sensor : 자체적으로 신호( 빛( laser ) , 전파 신호 , 초음파 등 ) 를 발사하여 데이터를 수집
    • Ex. LiDAR( laser ), Radar, 초음파 센서
  • Passive Sensor : 외부 환경( 빛, 열 등 )에서 발생하는 신호를 수집
    • Ex. 카메라, 적외선 센서, 온도 센서