07.08. Webinar with KANG Min-gyu

**Autonomous driving tech.

07.08. Webinar with KANG Min-gyu

2wnswoo 2025. 7. 8. 09:33

모델과 연구 트렌드

FLOPs
연산량을 나타내는 지표. 파라미터 사이즈와 함께 주의 깊게 봐야 한다.
리뷰한 Swin transformer 모델에 대한, 김중락 교수님의 코멘트
지표를 보았을 때, ResNet과 Swin Transformer의 성능 차이는 크지 않다.
Groot N1
2025년 3월에 발표된 모델. NVIDIA의 GPU Technology Conference(GTC)에서 공개됐다.

*GTC: 반년 마다 열려 연에 두 번 개최되는 NVIDIA 컨퍼런스임

수식 없이 기존 레퍼런스 방법을 설명하는 쪽에 가깝다.
요즘의 많은 논문의 트렌트가 수식 없이 “모델이 좋다”, “성능이 높다”로 마무리된다.
n1 Gr00t 논문 구조는 기존 논문 두 개를 엮은 형태로 Stage 1, Stage 2로 구성된다.
LLM, Vision-Language 모델로의 확장이 트렌드다.
실험적이고, “성능이 더 좋아졌다”는 내용이 주를 이룬다.
파운데이션 모델
대규모 데이터로 사전학습된 뒤, 다양한 다운스트림 작업에 활용되는 범용적인 기초 모델.

로봇 및 비전 관련 개념

로우레벨 매니퓰레이션 (Low-level Manipulation)
로봇이 물체를 잡고, 움직이고, 조작하는 데 필요한 가장 기본적인 힘과 모션 제어 단계.
씬 (Scene)
로봇이 인식하고 이해해야 하는 하나의 시각적/공간적 환경.
Frames Per Second (FPS)
로봇이 초당 몇 장의 센서 데이터(이미지, 영상)를 처리할 수 있는지를 나타내는 지표.

데이터와 학습 기법

Data Island
도메인 갭(domain gap) 때문에 훈련된 모델이 특정 데이터셋/환경에만 잘 작동하고, 다른 환경에서는 성능이 크게 떨어지는 상황을 ‘섬에 갇혔다’고 표현하기도 한다.
수도 라벨링 (Pseudo-labeling)
라벨이 없는 데이터에 대해 현재 학습된 모델이 예측한 값을 ‘가짜 정답’(수도 라벨)로 사용해 학습을 이어가는 기법.
pseudo는 ‘진짜(labelled)가 아닌, 임시/대신 쓰는’이라는 뜻.

업샘플링과 업스케일링

업샘플링 (Upsampling)
해상도를 높이는 것 (샘플 수를 늘리는 것).
업스케일링 (Upscaling)
이미지나 feature map의 가로×세로 크기(height × width)를 키우는 것.
저해상도에서 처리한 후 출력 단계에서 해상도를 높이는 기법.
Pixel Shuffle
채널 정보를 공간으로 펼쳐 해상도를 높이는 업샘플링 기법.
푸리에 변환
이미지 데이터를 압축하거나 복원하는 데 사용되는 대표적인 기법.

딥러닝 기법과 용어

디퓨전 (Diffusion)
데이터에 노이즈를 넣어 파괴한 뒤, 그 과정을 역으로 복원하며 새로운 데이터를 생성하는 기법.
양자화 (Quantization)
연속적인 값을 유한한(이산적인) 값으로 근사해 표현하는 것.
컴퓨터가 처리하기 쉽도록 많은 값을 몇 개의 대표값으로 단순화한다.
대표적인 기법: Uniform Quantization (등간격 양자화).
- e.g.

step 0 1 2 3 4 5

input 2.73 일때,

등간격 양자화 했을 때, 정수 3이 출력

학습 설정

Zero-shot
예시를 하나도 주지 않고 바로 작업을 수행.
Few-shot
예시를 몇 개만 보여주고 작업을 수행.

김중락 교수님의 코멘트 및 방향 제안

다음 방향으로 Swin Transformer 백본을 보는 것이 좋다.
Swin Transformer 2 모델도 리뷰해 볼 가치가 있다.
이런 논문들은 기초를 잡기에 좋고, representation learning 분야에 적합하다.
백본 모델을 볼 때는 Papers with Code 사이트에서 이미지 SOTA 성능을 참고하면 된다.
Swin Transformer는 좋은 시작점이며, 이후 다른 백본 모델도 함께 공부하는 것이 좋다.

저작자표시 비영리 변경금지 (새창열림)

'**Autonomous driving tech.' 카테고리의 다른 글

컴퓨터 비전과 디지털 영상 이해 (0)	2025.07.21
Knowledge Distillation (0)	2025.07.11
[Python] 07.06 (일) 공부내용 (0)	2025.07.06
~정리 필요~ 다중시점기하학 (0)	2025.06.08
Regularization vs Normalization, Dropout, 도메인의 개념, 멀티스케일?, 디스크립터? (0)	2025.06.07

현재글07.08. Webinar with KANG Min-gyu

2wnswoo 님의 블로그

Be a first mover, not a fast follower

오블완, 티스토리챌린지, 우,

Today :
Yesterday :

티스토리툴바