초록

Inertial Measurement Unit(IMU) 기반의 인간 활동 인식(Human Activity Recognition, HAR) 작업은 스마트 기기에 내장된 다양한 센서에 의해 캡처된 시계열 신호를 인식하여 사용자의 요구에 기반한 지원(예, Abnormal activity detection, Sleep monitoring 등)을 제공하는 것을 목표로 한다. 사용자의 요구를 충족시켜주기 위해서는 고성능 HAR 모델이 필수적으로 사용된다. 현재 Computer Vision, Natural Language Processing 등 많은 연구에서 높은 정확도를 보이며 사용되는 딥러닝 방법은 HAR 분야에서도 적용 및 활용되고 있다. 딥러닝 방법 중 하나인 Transformer 모델은 시계열 전체에 걸쳐 장기 의존성을 포착하기 위한 Self-Attention 메커니즘 방식으로 HAR 분야에서 큰 관심을 받았다. 그러나 기존 IMU 기반 HAR 연구에서는 사용되었던 Transformer 모델은 IMU 센서에서 나오는 시계열 신호의 강한 지역 의존성에 대한 사전 정보가 충분하지 않다는 한계점이 존재한다. 이로 인해 Transformer 모델 기반 HAR 모델은 많은 연구들이 진행되었음에도 불구하고 여전히 센서 시계열 신호의 장기 및 지역 의존성을 효과적으로 동시에 포착하지 못한다. 이는 전역적 맥락 정보와 지역적 타이밍 특성을 효과적으로 통합하지 못해 인식 정확도를 제한하게 된다. 또한, 기존 IMU 기반 HAR에서 사용되었던 Transformer 모델의 절대 위치 임베딩은 신호의 다른 두 시간점에서 개체 간의 거리 관계를 체계적으로 나타내지 못하여 모델이 입력 신호를 이해하는 능력을 감소시키는 데에 영향을 미친다. 따라서 본 연구에서는 앞서 언급한 문제점들을 해결하기 위해 Vector-based Relative Position Embedding (vRPE)을 기반으로 개선된 Transformer 모델을 제안했다. 해당 모델은 센서 시계열 신호의 장기 의존성과 지역 의존성을 효과적으로 포착하기 위해 Transformer의 Self-Attention 메커니즘과 Convolutional Feature Extract Block (CFEB)의 multi-layer convolutional layers를 사용하였다. 또한, Transformer 모델의 시계열 신호에서 추가적인 상대적 시간 위치 정보를 제공하기 위해 vRPE를 도입하였다. 본 연구에서는 제시한 모델의 성능을 검증하기 위해 3가지 공개 HAR 데이터셋인 KU-HAR, UniMiB SHAR과 USC-HAD를 사용하여 실험을 수행하였으며 각각 96.80%, 97.20% 및 94.10%의 정확도와 97.50%, 94.90% 및 92.70%의 F1-Scores를 달성하였다. 이는 본 연구에서 제안된 방법이 기존 Transformer 모델에서 사용되는 기준 모델과 현재 가장 높은 정확도를 가진 HAR 모델보다 우수한 성능을 일관적으로 보여줌을 나타낸다.