영상 초해상화는 영상의 화질을 개선하는 데 있어 중요한 컴퓨터 비전 분야 기술 중 하나이다. 저해상도 영상을 고해상도 영상으로 복원하는 기술인 영상 초해상화는 프레임 내 공간 정보들 간 상관성과 프레임 간 시간적 종속성 두 가지 모두를 효과적으로 활용하는 것이 핵심이다. 영상 초해상화는 전파, 정렬, 특징 추출, 집합, 업샘플링이라고 하는 크게 다섯 가지 주요 요소들로 구성된다.
이 중 전파는 특징 맵 어느 곳에 어떻게 활용할지를 결정짓는 가장 중요한 요소라고 할 수 있다. 특히, 재귀적 구조를 활용하는 경우 전파의 중요성은 더 커진다. 영상과 같은 순차적 정보가 포함된 데이터의 경우 누적된 시간 정보를 효과적으로 활용할 수 있는 재귀적 구조가 적합하게 적용될 수 있다. 그러나, 기존 영상 초해상화를 위한 재귀적 전파 구조의 경우 낮은 프레임 레이트에 기반하여 큰 움직임 포착에 집중하는 경향이 있어 다양한 움직임 정보를 위한 손실된 특징 복원에 있어 여전히 제한적이다. 또한, 기존 양방향 재귀 전파 구조의 경우 여러 개의 단방향 전파 분기들를 쌓은 형태의 구조로 설계되어 하나의 전파 분기 내에서 양방향으로 이웃 은닉 상태들에 접근하는 것은 여전히 불가능하다.
최근 영상 초해상화 연구들에서 잔차 블록 기반 구조와 트랜스포머 기반 구조는 가장 큰 비중을 차지하고 있다. 특히, 트랜스포머 기반 영상 초해상화 방법들은 다른 방법들보다 더 우수한 성능을 보여주고 있다. 그러나, 대부분의 기존 영상 초해상화 방법들이 특징을 추출할 때 일괄적인 방법으로 공간적 특징을 처리하기 때문에 의미있는 정보를 얻고 정확한 세부 특징들을 복원하는 데 있어 여전히 제한적이다.
본 논문에서는 우선 시공간 정보를 효과적으로 활용하기 위해 그룹 기반 양방향 재귀 웨이블릿 신경망을 제안하였다. 제안된 그룹 기반 양방향 재귀 전파는 초해상화 순서가 정의된 픽처 그룹 구조를 효과적으로 설계하여 실질적인 양방향 접근이 가능하도록 하였다. 또한, 이산 웨이블릿 변환에 기반하여 시공간 특징 모두에 주의 메커니즘을 적용한 시간 웨이블릿 어텐션 모듈을 제안하였다. 제안된 모듈은 저주파 특징과 고주파 특징을 분리하여 특징 추출이 가능하도록 하여 프레임 내 평평한 영역과 엣지 영역 각각에 맞게 특징을 강화할 수 있다.
앞서 언급된 그룹 기반 양방향 재귀 전파 구조는 지역 전파와 재귀 전파가 결합된 구조이다. 다시 말해, 여전히 슬라이딩 윈도우 내로 접근이 제한된다. 본 논문에서는 제안된 그룹 기반 양방향 재귀 전파를 더 개선하기 위해 양방향 재귀 구조를 적용하였다. 또한, 역전파, 순전파, 양방향 접근 전파 분기들을 쌓아 계층적으로 특징이 진화되도록 설계하였다. 이러한 개선된 전파 구조와 잔차 블록 기반 복원 구조를 결합하여 계층적 재귀 신경망을 제안하였으며 이산 웨이브릿 변환에 기반한 주파수 영역에서의 트랜스포머 구조를 설계하여 계층적 재귀 트랜스포머를 제안하였다.
실험 결과, 본 논문에서 제안된 방법들은 최신 방법들과 비교하여 우수한 초해상화 성능을 보였다. 제안된 계층적 재귀 트랜스포머와 계층적 재귀 신경망 각각 REDS4와 Vid4 벤치마크 데이터셋에서 SSIM 기준 가장 높은 수치를 보였다.
특히, 제안된 계층적 재귀 트랜스포머는 마찬가지로 트랜스포머 구조에 기반한 기존 최신 방법인 VRT와 비교하여 REDS4 벤치마크 데이터셋에서 PSNR 기준 0.32dB 그리고 SSIM 기준 0.0068 이라는 개선을 보였다. 제안된 계층적 재귀 트랜스포머는 대표적인 양방향 재귀 전파 기반 최신 방법인 BasicVSR++와 비교하여 REDS4와 Vid4 벤치마크 데이터셋 각각 PSNR 기준 0.12dB 그리고 0.07dB 라는 개선된 결과를 보였다. 또한, REDS4 벤치마크 데이터셋에서 최신 영상 초해상화 방법들인 Multi-Scale-T와 LGDFNet-BPP 방법들과 비교하여 제안된 계층적 재귀 트랜스포머는 SSIM 기준으로 두 가지 방법 각각 0.0133 그리고 0.0067 만큼 향상되었다.