--
Abstract
본 논문은 쿼드로터 마이크로 항공기를 이용하여 숲길을 따라 가면서 카메라로 사진을 찍고, 그 사진 한 장과 DNN을 사용하여 방향을 알아낸다.
Index Terms—Visual-Based Navigation; Aerial Robotics; Machine Learning; Deep Learning
*monocular image( 단안 이미지 ) : 하나의 카메라로 찍은 사진을 말함, 스마트폰 카메라나 일반 카메라로 찍은 사진이 이에 해당됨. 3D 깊이 정보를 제공하지 않아서 물체의 거리나 위치를 정확하게 파악하는 데에 한계가 있음
Introduction
컴퓨터 비전 및 로봇 공학 문헌은 주로 포장도로와 숲/사막 도로 인식에 초점을 맞춰왔음
후자의 문제는 전자보다 훨씬 더 어려운 문제임. 왜냐하면 비포장 도로는 일반적으로 포장 도로보다 구조화가 덜 되어 있기 때문이고 그 외관은 매우 다양하고 경계가 명확하지 않은 경우가 많아서 길을 인식하는 것은 훨씬 더 어려운 도전 과제가 됨. 왜냐하면 그 표면 외관이 매우 자주 변할 수 있고, 형태와 폭이 제한되지 않으며, 주변 지역( 예 : 풀 ) 과 매끄럽게 섞이는 경우가 많기 때문임
이러한 Unstructured한 trail을 찾는 방법제시 >> Saliency을 분석하여 픽셀이 얼마나 시각적으로 돋보이는지를 정량화시켜 trail 픽셀을 식별한다. trail 픽셀은 주변 지역과의 시각적 차이로 인해 높은 Saliency를 나타냄.
실제 trail은 다양한 외관 변화를 가지고 있기 때문에 방대한 훈련 데이터셋으로 훈련된 강력한 분류기가 필요
로봇을 teleoperaition 하여 데이터를 수집하는 것은 비현실적임
따라서 III-A에 소개된 간단하지만 효율적인 방법을 통해 오프라인으로 데이터셋을 수집함
III. Visual Perception of Forest Trails
A. 데이터셋
인식은 조명 조건, 식물 종류, 고도, 지역 지형 등 여러 요인에 큰 영향을 받음. 이러한 상황에서 방대한 데이터셋을 확보하기 위해, 하이커에게 세 개의 헤드 마운트 카메라를 장착시킨다. 왼쪽으로 30도, 하나는 정면, 다른 하나는 오른쪽 30도를 향하도록 함. 세 카메라는 서로 부분적으로 겹치며 약 180도를 커버함
B. 트레일 인식을 위한 DNN
입력층은 3 x 101 x 101 뉴런으로 구성되며, 여러 개의 은닉층과 세 개의 출력 뉴런이 뒤따른다.
- 네트워크 훈련 : 17,119장의 이미지를 훈련 데이터로 사용된다. 이는 하이커가 길을 걷는 동안 찍은 사진
이때, 가진 이미지를 더 많이 만들기 위해, 각 이미지를 좌우로 반전, 조금씩 이동시키기, 회전시키기 ex. 15도, 크기 바꾸기를 통해 더 많은 훈련 샘플이 생긴다.
이 프로그램은 DNN 방법을 90번 반복하여 훈련시킨다. 이 과정을 epoch( 훈련 반복 )라고 함. 훈련하는데 약 3일이 소요됨.
IV. Experimental Results
- 조향 : 길이 오른쪽에 있으면 오른쪽으로, 왼쪽에 있으면 왼쪽으로 돌림
- 속도 : 길이 보이면 빨리 가고, 안보이면 느리게 감
문제점 : 드론의 카메라 화질이 너무 낮아서 길을 잘 찾아내지 못함. 또한, 길 옆에 공간이 부족하면 로봇이 길을 잘 따라가지 못하고 자주 부딪혔음. 길이 넓고 조명이 좋은 경우에는 몇 백 미터를 잘 따라갈 수 있었음
V. Conclusion
Monocular image에서 하이킹 트레일의 방향을 시각적으로 인식하기 위해 DNN을 훈련시켰음.
대규모 실제 데이터셋과, 서로 겹치지 않는 테스트 세트를 이용한 결과, 이 시스템은 다른 방법들보다 더 나은 성능을 보였고, 인간과 비슷한 수준의 성능을 발휘하였다.
느낀점
로봇을 Teleoperation 하여 이미지 데이터 셋을 수집하지 않고 하이커가 직접 카메라를 머리에 장착시켜서 사진을 수집한 점이 흥미로웠고, 얻은 사진을 약간의 이동, 회전, 좌우반전을 통하여 데이터 셋의 양을 방대하게 만들어 훈련시킨 점도 흥미로웠음.
IEEE ROBOTICS AND AUTOMATION LETTERS. PREPRINT VERSION. ACCEPTED NOVEMBER, 2015