초록

6 자유도 자세 검출 문제는 로봇 비전과 증강현실(Augmented reality) 등에서 중요한 역할을 한다. 일반적으로 6 자유도 자세는 기준 마커(fiducial marker) 등 알려진 패턴을 통해 자세를 예측하지만, 딥러닝(Deep learning)이 발전함에 따라 일반적은 물체에 대해서도 6 자유도 자세를 검출하는 기법들이 제안되고 있다. 딥러닝 기반 기법은 크게 RGB 기반 기법과 Depth 정보를 이용하는 RGBD 기반 기법으로 나뉘며 RGB 기반 기법은 깊이 정보를 RGB 이미지 만으로 예측해야 하기 때문에 RGBD 기반 기법보다 더 어려운 문제로 남아있다. RGB 기반 기법은 합성곱 신경망(CNN)을 통해 6 자유도 자세를 회귀 기반으로 구하는 방식과, 키포인트 기반 2D-3D 일치를 기반으로 Perspective N Point(PnP)와 Random sample consensus(RANSAC) 알고리즘을 통해 구하는 방법으로 나뉜다.

본 논문에서는 키포인트 기반 PnP/RANSAC을 통해 6 자유도 자세를 검출하는 기법을 제안한다. 특히 상자 물체에 대한 6 자유도 자세 검출에 적합하도록 키포인트 선정은 물체의 3D CAD Model에서 Farthest Point Sampling(FPS) 기법을 통해 8개의 키포인트를 선정해서 사용한다. 키포인트 검출을 위해 Human pose estimation에서 State-of-the-art 성능을 기록했던 High-Resolution network (HRNet)을 이용했다. HRNet은 Top-down 방식이므로 추가적인 region of interest(ROI)를 구하는 과정이 필요하고, YoloV5를 객체 탐지 용도로 사용했다. 이후 검출된 키포인트와 3D Model과의 PnP/RANSAC 알고리즘을 통해 6 자유도 자세를 검출한다. 즉 전체적인 구조는 객체 탐지 단계, 키포인트 검출 단계, PnP/RANSAC 으로 구성되어 있으며, 각 단계는 독립적으로 동작한다. 본 논문에서는 상자 물체에 대한 6 자유도 자세 검출을 목표로 하고 있으나, 일반적인 물체에 대해서도 적용이 가능함을 확인하기 위해 6 자유도 자세 검출에 주로 사용되는 데이터셋인 LINEMOD 데이터셋에서 Average distance(ADD), 2D projection, 5cm5° 성능을 평가했다. HRNet의 경우 W32 모델과 W48 모델 두가지에 대해 실험하였으며, HRNet-W48 모델 기준 ADD 86.76%, 2D projection 99.18%, 5cm5° 96.94%를 기록해 같은 키포인트를 사용하는 PVNet ADD 86.27%보다 0.49% 향상된 성능을 기록했다.