초록

본 논문에서는 목표 기반 시각적 이동 작업(target-driven visual navigation)을 위해 새로운 심층 신경망 기반의 에이전트 모델(agent model) VCENet을 제안한다. 시각적 이동 작업을 위해 개발되었던 최근 에이전트 모델들은 주로 RGB 입력 영상에서 탐지해내는 환경 내의 물체들과 그들 간의 관계 정보만을 이용해 실시간 작업 상황을 파악하려고 하였다. 하지만 이러한 주요 물체 위주의 시각적 맥락정보는 공간 이동에 중요한 배경 장면에 대한 세부 정보를 포함하지 못할 뿐만 아니라, 물체 및 관계 탐지기의 오류가 있을 때도 상황을 오판할 수 있다는 문제점들이 존재한다. 이러한 한계점들을 극복하기 위해, 본 논문의 제안 모델 VCENet에서는 물체 탐지와 그래프 임베딩을 통해 구하는 물체 관계 특징 외에도 RGB-D 입력 영상에서 추출하는 배경 장면의 외관 및 기하학적 특징들도 함께 이용해서 실시간 작업 맥락정보를 표현한다. 또한 강화학습에 기초하여 행동 정책을 학습하는 많은 기존 모델들은 이동 작업 중에 발생 가능한 교착상태를 회피하기 위한 보상함수나 교착상태를 탈출하기 위한 효과적인 복구 정책 학습 방법들을 제공하지 못하였다. 이러한 문제들에 대한 대안으로서, 제안 모델 VCENet에서는 교착상태 회피 및 복구 보상함수와 적응적 모방학습 기반의 교착상태 복구 정책을 제시한다. AI2THOR 3차원 시뮬레이터가 제공하는 실사의 가상 실내 환경들에서의 다양한 실험들을 기반으로, 본 논문에서 제안하는 VCENet 모델의 우수성을 확인할 수 있었다.