초록

최근에 발표된 연구들이 주목할 만한 성능 향상을 보였음에도 불구하고, 여전히 단일 이미지로부터 정교한 3차원 휴먼을 복원하는 것은 도전적인 문제이다. 특히, 기존의 연구들은 신체의 일부 가려짐에도 취약한 결과를 보이며 다음 두 가지 요소: (i) 서로 다른 3차원 포즈가 동일한 2차원 포즈로 투영될 수 있는 2차원과 3차원 공간 사이에 내재하는 불확실성과 (ii) 가려진 신체 영역을 복원하는데 주요한 정보를 제공할 수 있는 신체 부위 간의 관계성을 효과적으로 고려하지 않는다. 이러한 문제를 해결하기 위해, 우리는 3차원 휴먼 복원을 위해 불확실성을 고려한 트랜스포머 기반의 네트워크를 제안한다. 먼저, 우리는 2차원과 3차원 공간 사이에 내재하는 불확실성을 고려하기 위해 확률분포 기반의 인코더를 활용한다. 하나의 2차원 포즈는 서로 다른 여러 개의 3차원 메쉬로 복원될 수 있기 때문에, 인코더는 2차원 포즈 정보를 하나의 포인트가 아닌 확률 분포로 표현한다. 복원된 3차원 메쉬와 입력 이미지 간의 정확도를 높이기 위해 임베딩 단계에서 3단계의 휴먼과 관련된 특징들이 함께 활용된다. 더욱이 우리는 서로 다른 신체 부위 간의 관계성을 모델링하기 위해 트랜스포머 기반의 네트워크를 제안한다. 불확실성을 고려한 어텐션을 통해 제안하는 방법론은 가까운 신체 부위 간의 관계성 및 먼 신체 부위 간의 관계성을 효과적으로 학습한다. 다양한 벤치마크를 활용한 실험들은 우리가 제안하는 방법론이 제한된 환경 및 제한되지 않은 환경 모두에서 기존 방법론들에 비해 뛰어난 성능을 달성하였음을 보인다. 또한, 우리의 방법론은 신체의 일부 가려짐이 존재하는 경우에도 우수한 성능을 보여준다.