트랜스포머 모델 구조는 딥러닝 분야의 발전에 큰 기여를 하고 있으며, 최근에는 이미지 분류, 객체 탐지, 이미지 생성과 같은 다양한 컴퓨터 비전 문제에서 널리 활용되고 있다. 트랜스포머의 어텐션 모듈은 모델의 연산에 유연성을 부여하고, 모델의 전반적인 성능을 크게 향상시킨다. 그러나 높은 계산량과 많은 파라미터 개수는 추론 속도를 느리게 하고, 큰 이미지 입력값을 처리하지 못하는 문제를 발생시킬 수 있다. 따라서, 트랜스포머 기반 컴퓨터 비전 모델들은 일반적으로 토큰을 이용하여 축소된 공간에서 데이터를 처리한다. 토큰들은 보통 이미지 패치로 나누어서 추출되는데, 이는 입력 데이터에 대한 직접적인 표현자이므로 이들을 올바르게 추출하고 처리하는 것은 매우 중요한 작업이다. 최근 연구에서는 토큰을 추출 할 때 이미지의 지역적 정보를 보존하고 활용하는 방법들을 제시하였으며, 불필요한 정보를 축소하는 방향으로 논의가 이루어지고 있다. 한편, 본 학위논문에서는 이러한 토큰의 집합을 확장 및 증강하는 두 가지 방법을 탐구함으로써 모델이 더욱 다양한 상황을 경험하여 모델 견고성과 일반성을 향상시키고자 하였다:
1. 중간 레이어 토큰들에 데이터 증강 믹스업(mixup) 방법을 적용하여, 새로운 데이터에 대한 이미지 분류기의 일반성을 향상시킴.
2. 질의 토큰(Query Token)을 확장하기 위한 순환 디코딩 방식을 제시하여, 객체 탐지기가 더욱 어렵고 복잡한 상황에 대응할 수 있도록 함.
또한, 본 학위논문은 다양한 벤치마크 데이터에 대한 광범위한 분석도 제시한다.