목차

표제지

국문초록

목차

제1장 서론 10

제2장 선행 연구 13

제1절 텍스트 인식 네트워크의 구성 13

1. 이미지 변형 13

2. 이미지 내 시각적 정보 추출 13

3. 시퀀스 모델링 14

4. 시퀀스 예측 14

제2절 CRNN 15

1. Convolution layer 15

2. Recurrent layer 17

3. Transcription 20

제3절 Transformer 21

1. Transformer의 구조 21

2. Positional encoding 23

3. Self-attention 24

제3장 제안 방법 28

제1절 Image feature encoder 31

1. ResNet(Residual Neural Network) 31

2. Image feature extractor 31

3. Positional encoding 33

4. Image self-attention 34

제2절 Text decoder 35

1. Text encoding 35

2. Text self-attention 36

3. Image-text mutual-attention 37

4. Prediction and loss function 37

제4장 Image-text transformer-based korean recognizer와 CRNN의 비교 분석 38

제1절 이미지 데이터 생성과 증강 38

제2절 학습과 테스트 데이터 40

제3절 성능 측정 지표 40

제4절 Implementation details 41

1. Hyper-parameters of networks 41

2. Optimization strategy 42

제5절 Ablation studies 42

1. CNN feature extractor에 따른 비교 결과 42

2. Transformer encoder·decoder에 따른 비교 결과 43

3. Self-attention의 효과 43

4. 이미지 증강(augmentation)의 효과 45

5. Detailed comparison with CRNN model 46

제5장 결론 48

참고문헌 50

Abstract 54

표 1. Positional encoding 연산에 대한 예시 24

표 2. 수정된 ResNet34의 구조 32

표 3. Ablation study on convolutional architectures 43

표 4. Ablation study on blocks of transformer encoder and decoder 43

표 5. Ablation study on role of self-attention modules 44

표 6. Character error rate of augmented images 46

표 7. Configurations of modified CRNN model 47

표 8. Comparison between CRNN and ITTKR 47

그림 1. 시각적 정보 프레임에 대한 예시 16

그림 2. Vanila LSTM의 동작 구조 19

그림 3. Bidirectional LSTM의 동작 구조 20

그림 4. Transformer의 구조 22

그림 5. Query(Q), Key(K), Value(V) 연산에 대한 예시 26

그림 6. Model architecture 30

그림 7. 증강 이미지와 분포 예시 39

그림 8. Character error rate의 구성 41

그림 9. Mutual attention map of image-text pair 45