**Autonomous driving tech.

07.08. Webinar with KANG Min-gyu

2wnswoo 2025. 7. 8. 09:33

모델과 연구 트렌드

  • FLOPs
    연산량을 나타내는 지표. 파라미터 사이즈와 함께 주의 깊게 봐야 한다.
  • 리뷰한 Swin transformer 모델에 대한, 김중락 교수님의 코멘트
    지표를 보았을 때, ResNet과 Swin Transformer의 성능 차이는 크지 않다.
  • Groot N1
    2025년 3월에 발표된 모델. NVIDIA의 GPU Technology Conference(GTC)에서 공개됐다.

*GTC: 반년 마다 열려 연에 두 번 개최되는 NVIDIA 컨퍼런스임

  • 수식 없이 기존 레퍼런스 방법을 설명하는 쪽에 가깝다.
    요즘의 많은 논문의 트렌트가 수식 없이 “모델이 좋다”, “성능이 높다”로 마무리된다.
  • n1 Gr00t 논문 구조는 기존 논문 두 개를 엮은 형태로 Stage 1, Stage 2로 구성된다.
    LLM, Vision-Language 모델로의 확장이 트렌드다.
    실험적이고, “성능이 더 좋아졌다”는 내용이 주를 이룬다.
  • 파운데이션 모델
    대규모 데이터로 사전학습된 뒤, 다양한 다운스트림 작업에 활용되는 범용적인 기초 모델.

로봇 및 비전 관련 개념

  • 로우레벨 매니퓰레이션 (Low-level Manipulation)
    로봇이 물체를 잡고, 움직이고, 조작하는 데 필요한 가장 기본적인 힘과 모션 제어 단계.
  • 씬 (Scene)
    로봇이 인식하고 이해해야 하는 하나의 시각적/공간적 환경.
  • Frames Per Second (FPS)
    로봇이 초당 몇 장의 센서 데이터(이미지, 영상)를 처리할 수 있는지를 나타내는 지표.

데이터와 학습 기법

  • Data Island
    도메인 갭(domain gap) 때문에 훈련된 모델이 특정 데이터셋/환경에만 잘 작동하고, 다른 환경에서는 성능이 크게 떨어지는 상황을 ‘섬에 갇혔다’고 표현하기도 한다.
  • 수도 라벨링 (Pseudo-labeling)
    라벨이 없는 데이터에 대해 현재 학습된 모델이 예측한 값을 ‘가짜 정답’(수도 라벨)로 사용해 학습을 이어가는 기법.
    pseudo는 ‘진짜(labelled)가 아닌, 임시/대신 쓰는’이라는 뜻.

업샘플링과 업스케일링

  • 업샘플링 (Upsampling)
    해상도를 높이는 것 (샘플 수를 늘리는 것).
  • 업스케일링 (Upscaling)
    이미지나 feature map의 가로×세로 크기(height × width)를 키우는 것.
    저해상도에서 처리한 후 출력 단계에서 해상도를 높이는 기법.
  • Pixel Shuffle
    채널 정보를 공간으로 펼쳐 해상도를 높이는 업샘플링 기법.
  • 푸리에 변환
    이미지 데이터를 압축하거나 복원하는 데 사용되는 대표적인 기법.

딥러닝 기법과 용어

  • 디퓨전 (Diffusion)
    데이터에 노이즈를 넣어 파괴한 뒤, 그 과정을 역으로 복원하며 새로운 데이터를 생성하는 기법.
  • 양자화 (Quantization)
    연속적인 값을 유한한(이산적인) 값으로 근사해 표현하는 것.
    컴퓨터가 처리하기 쉽도록 많은 값을 몇 개의 대표값으로 단순화한다.
    대표적인 기법: Uniform Quantization (등간격 양자화).
    • e.g.

             step 0 1 2 3 4 5

             input 2.73 일때,

 

             등간격 양자화 했을 때, 정수 3이 출력


학습 설정

  • Zero-shot
    예시를 하나도 주지 않고 바로 작업을 수행.
  • Few-shot
    예시를 몇 개만 보여주고 작업을 수행.

김중락 교수님의 코멘트 및 방향 제안

  • 다음 방향으로 Swin Transformer 백본을 보는 것이 좋다.
  • Swin Transformer 2 모델도 리뷰해 볼 가치가 있다.
  • 이런 논문들은 기초를 잡기에 좋고, representation learning 분야에 적합하다.
  • 백본 모델을 볼 때는 Papers with Code 사이트에서 이미지 SOTA 성능을 참고하면 된다.
  • Swin Transformer는 좋은 시작점이며, 이후 다른 백본 모델도 함께 공부하는 것이 좋다.