손 제스처 인식은 입력 영상 속 제스처를 인식하여 판별하는 기술로 행동 인식과 달리 손 제스처는 손과 팔 영역인 특정 영역 내에서 수행되는 제스처를 판별해야 한다. 하지만 그 영역이 작기 때문에 인식하는데 어려움이 존재한다. 이러한 문제점을 해결하기 위해 RGB 데이터뿐만 아니라 다양한 모달리티의 데이터를 적용하는 네트워크가 제안되고 있으며 3D 컨볼루션이나 LSTM네트워크를 사용해 동적인 모션 정보를 포착하기도 한다. 최근에는 포인트 클라우드 데이터를 사용한 손 제스처 인식 방법이 제안되었고 이 방식은 다른 모달리티에 비해 우수한 정확도를 보였다. 포인트 클라우드 데이터는 기하학적 좌표 값을 가지는 포인트들로 이루어져 있고 불규칙한 데이터 특성을 가지고 있다. 그룹화를 통해 입력으로 들어온 각 포인트들 간의 관계를 계산하면서 학습을 진행하게 되면 연산량이 많아지기 때문에 다운샘플링을 통해 포인트의 수를 줄여가면서 학습을 진행한다. 하지만 기존의 샘플링 방식들은 네트워크의 결과에 대한 중요도에 관계없이 포인트들을 다운샘플링하기 때문에 학습이 진행되면서 제스처를 표현하는 중요한 포인트가 제거될 수 있거나 덜 중요한 포인트가 다음 레이어로 전달될 수 있다. 그래서 수행되는 제스처에 대한 단서를 제공할 수 있는 중요한 영역에 더 많은 포인트들을 남길 수 있는 다운샘플링 기법을 제안한다. 그리고 처음으로 손 제스처 인식 분야에서 포인트 클라우드 데이터와 포인트 클라우드와는 다른 특성을 가지고 있어 서로 보완할 수 있는 가능성을 보인 RGB 데이터를 효율적으로 융합시키기 위한 어텐션 기반 멀티 모달 융합 방식을 제안한다.
본 논문에서는 최고의 결과를 보인 손 제스처를 표현하는 포인트 클라우드 데이터에서 제스처에 대한 단서를 제공할 수 있는 영역과 그렇지 않은 영역으로 손 영역을 분할하여 포인트들을 샘플링하는 방식과 포인트 클라우드와 다른 특성을 가지는 RGB 데이터를 효과적으로 융합할 수 있는 멀티 모달 융합 방법을 제안하고 기존 대비 향상된 판별 정확도를 보여준다.