표제지
목차
1. 서론 6
1.1. 연구방법론 6
2. 연구 배경 8
2.1. Interpolation의 주기성 분석 8
2.2. Related work 9
2.3. Vision task에서의 transformer 10
3. 방법론 11
3.1. Preprocessing layer 11
3.2. Frequency positional encoding layer 12
3.3. Transformer encoder 13
3.4. Regression layer 14
4. 실험 결과 16
4.1. Experimental setup 16
4.2. Evaluation metric 17
4.3. Results 18
4.4. Comparison experiments 22
4.5. Robustness to JPEG compression 23
4.6. Activation pattern analysis 24
5. 결론 25
5.1. Discussion and Conclusion 25
참고 문헌 26
초록 30
Abstract 31
표 4-1. Test set M에 대한 preprocessing layer 실험 결과 18
표 4-2. Test set M에서 transformer encoder 구성 비교 19
표 4-3. 제안된 방법과 비교 실험의 전체 검증 결과 21
그림 2-1. 1,000장을 평균 낸 고주파 필터를 거친 이미지와 FFT 스펙트럼 결과 (a),(d)는 rotation 15˚, (b),(e)는 scaling 1.2, (c),(f)는 rotation 15˚와 scaling 1.2. 흰색... 9
그림 3-1. geometric transformation matrix 추정을 위한 제안된 network 11
그림 4-1. 검증을 위한 3가지 test set 예시 왼쪽부터: 원본 이미지, test set R, test set S, test set M. 16
그림 4-2. 추정된 factor의 confusion matrix. (a): R, (b): S, (c): M에서 분해된 θ, (d): M에서 분해된 Ŝ[이미지참조] 20
그림 4-3. RMSE 기반 비교 실험. (a): R, (b): S, (c): M에서 분해된 θ, (d): M에서 분해된 Ŝ[이미지참조] 21
그림 4-4. JPEG 압축에 대한 견고성 실험. (오른쪽): M에서 분해된 θ, (왼쪽): M에서 분해된 Ŝ.[이미지참조] 23
그림 4-5. Activation map의 시각화. (a)-(d): preprocessing layer, (e)-(h): transformer encoder의 마지막 layer 24