초록

본 논문에서는 시공간 해상도 변화에 강인한 고품질 영상 표현을 학습하기 위한 자가지도 학습 방법을 제안한다. 우리는 모델이 배경과 개체 같은 비디오의 일부에만 집중하여 낮은 수준의 추론을 하는 문제를 완화하는 것을 목표로 한다. 제안하는 자가지도 표현 객체는 교사와 학생 네트워크로 조합된 STATS (SpatioTemporally Adaptive Teacher-Student) 프레임워크이다. 주어진 비디오에서 다양한 공간 해상도와 재생 속도로 로컬 및 글로벌 뷰를 생성하고 글로벌 뷰로부터 마스킹을 통해 마스킹된 글로벌 뷰를 생성한다. 제안하는 STATS 가 생성한 뷰들을 활용하여 교차 해상도 대응 및 마스킹된 자체 증류를 통해 주어진 비디오에서 일관된 표현을 학습하도록 한다. 우리의 학습 전략은 모델이 시공간 해상도 변화에서 일관된 정보를 캡처하도록 장려하고 마스킹으로 인해 손실된 부분을 스스로 증류하면서 세부 정보 및 연관 정보를 이해할 수 있도록 하는 것이다. 광범위한 실험을 통해서 로컬 및 글로벌 뷰에 적용된 증식 기술의 조합을 최적화하고 STATS 의 성능을 확인한다. 또한, 우리는 STATS 가 고품질 비디오 표현을 학습하여 다운 스트림 작업에서 잘 수행함을 보이고 UCF101 및 HMDB51과 같은 벤치마크 데이터셋에서 최신 방법들의 행동 인식 성능을 능가하거나 유사한 것을 보인다.