표제지
국문초록
목차
제1장 서론 10
제2장 선행 연구 13
제1절 텍스트 인식 네트워크의 구성 13
1. 이미지 변형 13
2. 이미지 내 시각적 정보 추출 13
3. 시퀀스 모델링 14
4. 시퀀스 예측 14
제2절 CRNN 15
1. Convolution layer 15
2. Recurrent layer 17
3. Transcription 20
제3절 Transformer 21
1. Transformer의 구조 21
2. Positional encoding 23
3. Self-attention 24
제3장 제안 방법 28
제1절 Image feature encoder 31
1. ResNet(Residual Neural Network) 31
2. Image feature extractor 31
3. Positional encoding 33
4. Image self-attention 34
제2절 Text decoder 35
1. Text encoding 35
2. Text self-attention 36
3. Image-text mutual-attention 37
4. Prediction and loss function 37
제4장 Image-text transformer-based korean recognizer와 CRNN의 비교 분석 38
제1절 이미지 데이터 생성과 증강 38
제2절 학습과 테스트 데이터 40
제3절 성능 측정 지표 40
제4절 Implementation details 41
1. Hyper-parameters of networks 41
2. Optimization strategy 42
제5절 Ablation studies 42
1. CNN feature extractor에 따른 비교 결과 42
2. Transformer encoder·decoder에 따른 비교 결과 43
3. Self-attention의 효과 43
4. 이미지 증강(augmentation)의 효과 45
5. Detailed comparison with CRNN model 46
제5장 결론 48
참고문헌 50
Abstract 54
표 1. Positional encoding 연산에 대한 예시 24
표 2. 수정된 ResNet34의 구조 32
표 3. Ablation study on convolutional architectures 43
표 4. Ablation study on blocks of transformer encoder and decoder 43
표 5. Ablation study on role of self-attention modules 44
표 6. Character error rate of augmented images 46
표 7. Configurations of modified CRNN model 47
표 8. Comparison between CRNN and ITTKR 47
그림 1. 시각적 정보 프레임에 대한 예시 16
그림 2. Vanila LSTM의 동작 구조 19
그림 3. Bidirectional LSTM의 동작 구조 20
그림 4. Transformer의 구조 22
그림 5. Query(Q), Key(K), Value(V) 연산에 대한 예시 26
그림 6. Model architecture 30
그림 7. 증강 이미지와 분포 예시 39
그림 8. Character error rate의 구성 41
그림 9. Mutual attention map of image-text pair 45