표제지
목차
요약 9
Abstract 10
1. 서론 12
2. 종래기술 17
2.1. 종래 제스처 인식 기법 17
2.2. 다중 모달 융합 방식 25
3. 제안 기법 33
3.1. 제안 기법의 개요 33
3.2. 포인트 클라우드 샘플링을 위한 손 영역 분할 35
3.3. 다중 모달 융합 39
4. 실험 결과 43
4.1. 실험 환경 43
4.2. 데이터 셋 44
4.3. 포인트 클라우드 샘플링의 성능 평가 47
4.4. 제안 기법의 성능 평가 52
5. 결론 56
참고문헌 58
표 1. 포인트 클라우드 데이터 생성 알고리즘 46
표 2. 다운 샘플링 횟수에 따른 결과 47
표 3. 손 영역을 나눈 방식에 여러 샘플링 기법을 적용한 성능 비교 50
표 4. 랜덤 샘플링 적용했을 때 샘플링 비율에 따른 성능 비교 50
표 5. 샘플링 비율이 같을 때 샘플링 기법에 따른 성능 비교 51
표 6. 고정된 값으로 late fusion 학습한 결과 54
표 7. 어텐션 네트워크 추가해서 후기 융합 학습한 결과 55
그림 1. 제스처 인식 과정 13
그림 2. 시간 t에 따른 NVGesture 데이터의 샘플 시퀀스 이미지 15
그림 3. RGB 데이터와 포인트 클라우드 데이터의 각 클래스별 성능 비교 16
그림 4. Egoesture 데이터의 RGB 이미지와 깊이 이미지 18
그림 5. SHREC 데이터의 뼈대와 저장된 관절 포인트들의 위치 19
그림 6. PointLSTM의 개요 24
그림 7. 3가지 융합 방식 26
그림 8. Cross-stitch unit 27
그림 9. 두 개의 모달리티에 대한 MMTM 구조 29
그림 10. Multi-modal attention network 구조 32
그림 11. 제안 기법의 전체 네트워크 35
그림 12. 두 영역으로 나뉘는 포인트 클라우드 37
그림 13. 반지름 비율을 찾기 위한 포인트 분포. 히스토그램에서 빨간 선은 좌표를 통해 계산된 손의 중심의 위치를 나타냄. 손의 중심 근처에... 38
그림 14. 반지름 설정 비율을 0.35로 설정했을 때 프레임 별 생성되는 원의 크기. 손의 중심에서 가장 먼 거리에 위치한 포인트와의 거리에 따라 원의... 39
그림 15. 다중 모달리티 융합의 전체 구조 41
그림 16. multi-modal attention network 구조 42
그림 17. NV gesture의 RGB 데이터 45
그림 18. NVGesture 깊이 영상 데이터 45
그림 19. 포인트 클라우드 생성 방법 47
그림 20. 각 stage에서 FPS 방식으로 포인트들이 샘플링 된 결과 48
그림 21. 샘플링 기법에 따른 샘플링 된 포인트 이미지 51
그림 22. 샘플링 기법에 따른 포인트 출력 모습 52
그림 23. 단순 평균 후기 융합을 적용한 네트워크 구조 53
그림 24. 어텐션 네트워크를 적용한 전체 네트워크 구조 55