영상 예측은 영상에 혼재되어 있는 공간적 정보와 시간적 정보를 모두 효과적으로 처리해야 하는 어려운 문제이다. 시간에 따른 공간의 변화를 다루기 위해 순환 신경망이나 트랜스포머 기반 모델들이 많이 연구되어 왔지만 최근에는 합성곱 신경망의 구조적 발전으로 인해 합성곱 신경망을 기반으로 한 영상 예측 모델이 높은 성능을 달성하고 있다. 합성곱 신경망 기반 모델은 순환 신경망이나 트랜스포머 기반 모델에 비해 병렬 처리가 쉽고 계산 복잡도도 낮아 가장 실용적으로 쓰일 수 있기 때문에 연구의 중요성이 높다.
그러나 현존하는 합성곱 신경망 기반의 영상 예측 모델들은 영상의 시간 축을 각 프레임의 채널 축과 같이 묶어 동일하게 처리한다. 이들은 영상의 프레임을 시간 순서대로 쌓아 시간·공간 축을 형성한 후 일반적인 1x1 합성곱 연산을 적용하는 방식을 사용한다. 그러나 이 방식에는 한계가 존재한다. 1x1 합성곱 연산은 프레임이 시간 순으로 배열되어 있더라도 그 순서를 인지하는 능력이 부족하므로 시간에 따라 변화하는 특성을 가진 특징을 추출하기 어렵다. 또한 시간 축과 공간 축의 정보가 추론 과정에서 지속적으로 혼합되는 문제로 인해 계산상의 비효율도 발생할 수 있다.
이에 본 논문에서는 영상 예측을 위한 시계열 분해 모델을 제안한다. 제안하는 모델에서는 먼저 채널 종합 모듈의 1x1 합성곱 연산이 시간 축과 공간 축을 독립적으로 처리할 수 있도록 나누며 시간 축에 대해서는 시계열 분해 예측 방법을 적용한다. 이를 통해 시간적 특징과 공간적 특징을 각각 얻어낼 수 있고 또한 시간에 따라 변화하는 특징을 추출할 수 있도록 시간 축을 추세와 잔차로 나누어 추론할 수 있도록 하였다.
제안한 방법의 유효성을 검증하기 위해 Moving MNIST 벤치마크 데이터 셋에서 평가한 결과 기존의 방법보다 약 55%의 매개변수 개수와 약 37%의 계산량이 감소하였음에도 최대 7%의 정확도 향상을 달성하였다.