시계열 데이터란 일정한 시간 동안 수집된 일련의 순차적으로 정해진 데이터셋의 집합을 의미하며 예측, 분류, 이상치 탐지 등에 활용되고 있다. 기존의 시계열 분야의 인공지능 모델에는 RNN(Recurrent Neural Network)을 주로 활용하여 분석을 진행했지만, 최근 Transformer 모델의 개발로 인하여 연구 추세가 변화하고 있다. Transformer 모델은 시계열 데이터 예측에는 좋은 성능을 보이지만, 분류 쪽에서는 상대적으로 부족한 성능을 보인다. 본 논문에서는 시계열 분류를 위한 Transformer 모델에 CLS 토큰을 추가하여 성능 향상에 초점을 맞추었다. 본 논문에서 제안하는 방식은 1) 입력 데이터의 임베딩 방법, 2) 사전 학습 방법이다. 1) 입력 데이터의 임베딩 방법은 총 2가지 방법을 이용한다. 첫 번째는 입력 데이터를 standard scaler를 활용하여 각기 다른 진폭을 가지는 시계열 데이터들을 정규화하여 진폭을 균일하게 만들고 time window 방식으로 데이터의 차원을 변경한 뒤 GRU(Gated Recurrent Unit)를 통하여 Transformer에 입력 토큰으로 활용한다. 두 번째는 GASF(Gramian Angular Summation Field)를 활용하여 입력 데이터를 이미지로 만든 뒤 사전 학습된 컴퓨터 비전 모델을 활용하여 얻어낸 벡터를 Transformer의 CLS 토큰 입력으로 활용한다.
사전 학습 방식은 자연어 분야에서 사용하는 MLM(Masked Language Modeling)과 유사한 방식을 활용한다. 시계열 데이터는 자연어와 다르게 연속 변수로 이루어져 있어서 목적함수 계산 시 MSE(Mean Squared Error)를 활용한다. 입력 토큰의 마스킹 작업 시에 CLS 토큰은 제외하고 나머지 입력 토큰 중 30%를 마스킹하고 마스킹 된 값을 출력단에서 맞추는 형식으로 학습된다. 본 논문에서는 UCR 데이터 셋을 활용하여 총 12개의 서로 다른 모델들과 제안하는 모델의 성능을 비교한다. 제안하는 모델은 85개의 데이터에 대한 평균 정확도 평가에서 최소 1.4% 최대 21.1%까지 성능 향상을 보였다.