Hough Transform
: 이미지에서 특정한 형태( 직선, 원 등 )을 찾는 알고리즘, 가장 기본적인 형태는 직선 검출임
*노이즈 제거, 스무딩 처리하는 이유 :
노이즈가 많은 이미지에서는 엉뚱한 곳에 경계를 만들 수 있음.
👉 스무딩을 하면 불필요한 엣지를 줄이고, 진짜 경계만 남길 수 있어!
👉 경계가 아닌 부분인데도 엣지가 생기면 잘못된 결과를 초래
Machine Learning의 4단계
1단계 : 데이터 수집
2단계 : 모델 선택
3단계 : 학습, 훈련 집합에 있는 샘플을 최소 오류로 맞히는 최적의 가중치 weight 값을 알아내는 것
4단계 :예측( 추론, inference ) , 학습을 마친 모델을 말한다. 모델 학습에 사용하지 않던 새로운 특징 벡터를 입력하고 출력하는 과정
- 딥러닝을 구현하는 데 가장 널리 쓰이는 도구 : TensorFlow( Google ), PyTorch( Facebook )
Convolution Neural Network
- 데이터를 늘리면 overfitting을 방지할 수 있다. 그런데, 데이터 수집에는 많은 비용과 시간이 듦.
- Data Augmentation 방법( 약간의 이동, 회전, 크기, 명암 변환을 랜덤하게 적용하여 무한대로 증강 ) 으로 해결
--
- Computer Vision은 Perception 문제를 분류, 검출, 분할, 추적, 행동 분류의 세부 문제로 구분해서 푼다.
- Classification, Detection, Segmentation, Tracking, Action-Classification
*Segmentation 분할 : 이미지에서 객체 또는 영역을 나누는 과정
Vision Transformer, ViT
Attention 메커니즘을 활용한 딥러닝 모델
🚀 Vision Transformer (ViT)란?
**Vision Transformer (ViT)**는 Attention 메커니즘을 활용한 딥러닝 기반 이미지 분석 모델이야.
➡ 기존에는 **CNN(합성곱 신경망)**을 사용해 이미지에서 특징을 추출했지만,
➡ ViT는 Transformer를 이용해 이미지의 전역적인 특징을 학습할 수 있어!
💡 즉, ViT는 CNN 없이도 Transformer만으로 이미지 분석을 수행하는 강력한 모델!
✅ ViT의 장점과 단점
🎯 ViT의 장점
✅ 전역적(전체) 특징을 학습 가능
- CNN은 한정된 영역만 보는 반면, ViT는 전체 이미지를 한 번에 학습
✅ 멀리 떨어진 객체 간의 관계도 학습 가능 - 예: 자율주행에서 보행자와 자동차의 거리 관계를 더 정확하게 파악 가능
✅ 기존 CNN보다 더 강력한 성능 가능 - 충분한 데이터가 있으면 CNN보다 더 뛰어난 성능을 보임
🚀 백본(Backbone)이란?
**백본(Backbone)**은 **딥러닝 모델에서 주요 특징(Feature)을 추출하는 기본 신경망(메인 구조)**을 말해.
➡ 쉽게 말하면, 이미지에서 중요한 정보를 뽑아내는 핵심 역할을 하는 부분이야!
✅ 백본(Backbone)의 역할
- 입력된 이미지를 여러 층(Layer)에서 점점 더 중요한 특징으로 변환
- CNN, ViT 같은 모델이 백본으로 사용될 수 있음
- 백본이 추출한 특징을 바탕으로, 객체 탐지(Object Detection), 분할(Segmentation), 분류(Classification) 등 다양한 작업을 수행
💡 즉, 딥러닝 모델의 "뼈대" 역할을 하는 중요한 부분!
'**Autonomous driving tech. > *Computer Vision' 카테고리의 다른 글
[Computer Vision] 01 (0) | 2025.03.05 |
---|