본 연구는 이미지 내 한국어 인식 성능 향상을 위하여 이미지에 대응하는 텍스트 정보를 함께 학습하는 트랜스포머 기반의 모델을 구축하는 것을 목표로 한다. 이미지 내 텍스트 인식(recognition)은 이미지 내 텍스트 위치 검출(detection) 기술과 더불어 광학 문자 인식(Optical Character Recognition, OCR)에 사용되는 기술 중 하나이다. 대표적으로 광학 문자 인식은 아날로그 형식으로 기록된 문서에 대하여 기계가 판독할 수 있는 형태의 텍스트 데이터로 저장 가능하게 함으로써 대부분 분야의 업무 효율성 증대에 기여한다.
텍스트 인식에 사용되었던 기존의 CRNN 모델은 CNN 계열의 모델로부터 추출된 시각적 정보에만 의존하여 텍스트 디코딩을 수행한다. 반면 본 연구에서 제안하는 트랜스포머 기반의 모델은 주어진 입력 이미지에 대응하는 텍스트 정보를 함께 사용함으로써 상호 연관성을 학습하고, 더 긍정적인 인식 결과를 제공한다. 추가적으로 이미지에서 텍스트에 대한 시각적 정보를 추출하기 위해 사용하는 다양한 깊이(depth)의 ResNet(Residual Neural Networks) 모델과 셀프 어텐션(self attention) 등의 영향력에 대한 실험을 진행하기 위해 여러 조합의 모델을 구성함으로써 가장 낮은 문자 오류율(Character Error Rate, CER)을 기록하는 모델을 선택한다. 최종적으로 문자 오류율과 학습 속도 측면에서 CRNN 모델보다 낮은 수치를 제공함으로써 트랜스포머 모델의 핵심 모듈인 어텐션(attention)이 텍스트 인식에 효과적임을 관찰할 수 있다.