본문 바로가기 주메뉴 바로가기
국회도서관 홈으로 정보검색 소장정보 검색

목차보기

Title Page

Contents

Abstract 9

Ⅰ. Introduction 11

Ⅱ. Background 16

2.1. Sensor-Based HAR 16

2.2. Convolutional Neural Network 17

2.3. Transformer model 18

2.4. Position Embedding 20

2.5. Long and Local dependencies 21

2.6. Related work on existing HAR models 22

Ⅲ. Human Activity Recognition model 24

3.1. Dataset description 24

3.1.1. KU-HAR dataset 24

3.1.2. UniMiB SHAR dataset 25

3.1.3. USC-HAD dataset 25

3.1.4. Dataset Preprocessing 27

3.2. Proposed model description 28

3.2.1. Input Definition 30

3.2.2. Convolutional Features Extractor Block 30

3.2.3. Multi-Head Self-Attention 31

3.2.4. Vector-based Relative Position Embedding 32

3.2.5. Feed-Forward Network 33

Ⅳ. Experiment & Result 34

4.1. Evaluation Metrics 34

4.2. Baseline Model 35

4.3. Experimental Setup Details 36

4.4. Experimental Result 38

Ⅴ. Discussion 41

5.1. Ablation Works of Improve Methods 42

5.1.1. Effect of Convolutional Feature Extract Block 42

5.1.2. Effect of Vector-based Relative Position Embedding 44

5.2. Ablation Works of Hyper-Parameters 47

5.2.1. Impact of Convolutional Layer Numbers 47

5.2.2. Impact of Convolutional Filter Numbers 48

5.2.3. Impact of Head Numbers 50

Ⅵ. Conclusion 51

References 53

국문 요약 64

List of Tables

〈Table 3-1-1〉 Main information of the datasets. 24

〈Table 3-1-2〉 Setting of data Pre-processing. "-": Overlap Rate is zero. 28

〈Table 4-3-1〉 Experimental Setup Details. Where, smoothing Factor: Smoothing factors for label smoothing regularization techniques. 37

〈Table 4-4-1〉 Experimental results of different model structure on USC-HAR, UniMiB SHAR, and KU-HAR dataset. The symbol "-" denotes no result. Where,... 40

〈Table 5-1〉 Experimental results after combining different modules. 41

〈Table 5-1-1〉 Experimental test results of CBEF structure. 44

〈Table 5-1-2〉 Performance test results of the baseline model using different position embedding methods. 45

〈Table 5-2-1〉 Our model under the Action of Different Number of Convolutional Layers. 47

〈Table 5-2-2〉 Our model under the Action of Different Convolutional Layer Filter Numbers. 48

〈Table 5-2-3〉 Our model under Different Head Count Actions. 50

List of Figures

〈Figure 2-1-1〉 Example of a HAR system based on sensors. 17

〈Figure 2-3-1〉 Transformer model architecture. 19

〈Figure 3-1-1〉 Activity class distribution of the datasets. (a) KU-HAR, (b) UniMiB SHAR, (c) USC-HAD 26

〈Figure 3-2-1〉 Overall Architecture of the Human Activity Classification Model. The right dashed box indicates the Convolutional Feature Extractor Block (CFEB).... 29

〈Figure 3-2-2〉 Self-attention modules with relative position embedding using vector parameters (vRPE-SA). Newly added parts are depicted in grey area. Firstly,... 33

〈Figure 4-4-1〉 Validation accuracy and loss curves for the two models on the USC-HAD, KU-HAR and UniMiB SHAR datasets. 38

〈Figure 5-1-1〉 Attention scores visualization of Baseline model(a) and enhanced versions(b). By using the Convolution feature extractor block module, the local... 43

〈Figure 5-2-1〉 Confusion Matrix. Baseline model(a), Baseline model with Initial Relative Position Embedding(b), and Baseline model with vRPE(c). 46

〈Figure 5-2-1〉 UniMiB SHAR Dataset's validation set loss for the impact of different number of convolutional filters on the proposed model. 49

초록보기

 Inertial Measurement Unit(IMU) 기반의 인간 활동 인식(Human Activity Recognition, HAR) 작업은 스마트 기기에 내장된 다양한 센서에 의해 캡처된 시계열 신호를 인식하여 사용자의 요구에 기반한 지원(예, Abnormal activity detection, Sleep monitoring 등)을 제공하는 것을 목표로 한다. 사용자의 요구를 충족시켜주기 위해서는 고성능 HAR 모델이 필수적으로 사용된다. 현재 Computer Vision, Natural Language Processing 등 많은 연구에서 높은 정확도를 보이며 사용되는 딥러닝 방법은 HAR 분야에서도 적용 및 활용되고 있다. 딥러닝 방법 중 하나인 Transformer 모델은 시계열 전체에 걸쳐 장기 의존성을 포착하기 위한 Self-Attention 메커니즘 방식으로 HAR 분야에서 큰 관심을 받았다. 그러나 기존 IMU 기반 HAR 연구에서는 사용되었던 Transformer 모델은 IMU 센서에서 나오는 시계열 신호의 강한 지역 의존성에 대한 사전 정보가 충분하지 않다는 한계점이 존재한다. 이로 인해 Transformer 모델 기반 HAR 모델은 많은 연구들이 진행되었음에도 불구하고 여전히 센서 시계열 신호의 장기 및 지역 의존성을 효과적으로 동시에 포착하지 못한다. 이는 전역적 맥락 정보와 지역적 타이밍 특성을 효과적으로 통합하지 못해 인식 정확도를 제한하게 된다. 또한, 기존 IMU 기반 HAR에서 사용되었던 Transformer 모델의 절대 위치 임베딩은 신호의 다른 두 시간점에서 개체 간의 거리 관계를 체계적으로 나타내지 못하여 모델이 입력 신호를 이해하는 능력을 감소시키는 데에 영향을 미친다. 따라서 본 연구에서는 앞서 언급한 문제점들을 해결하기 위해 Vector-based Relative Position Embedding (vRPE)을 기반으로 개선된 Transformer 모델을 제안했다. 해당 모델은 센서 시계열 신호의 장기 의존성과 지역 의존성을 효과적으로 포착하기 위해 Transformer의 Self-Attention 메커니즘과 Convolutional Feature Extract Block (CFEB)의 multi-layer convolutional layers를 사용하였다. 또한, Transformer 모델의 시계열 신호에서 추가적인 상대적 시간 위치 정보를 제공하기 위해 vRPE를 도입하였다. 본 연구에서는 제시한 모델의 성능을 검증하기 위해 3가지 공개 HAR 데이터셋인 KU-HAR, UniMiB SHAR과 USC-HAD를 사용하여 실험을 수행하였으며 각각 96.80%, 97.20% 및 94.10%의 정확도와 97.50%, 94.90% 및 92.70%의 F1-Scores를 달성하였다. 이는 본 연구에서 제안된 방법이 기존 Transformer 모델에서 사용되는 기준 모델과 현재 가장 높은 정확도를 가진 HAR 모델보다 우수한 성능을 일관적으로 보여줌을 나타낸다.