표제지
목차
국문요약 10
제1장 서론 12
제2장 관련 연구 14
2.1. 기존 연구 14
2.2. 딥 러닝을 이용한 언어 모델 15
2.3. 형태소 분석 16
제3장 Head-Tail 토크나이저와 품사 태거 18
3.1. Head-Tail 말뭉치 구성 19
제4장 Head-Tail 토크나이저 모델 23
4.1.1. 음절단위 임베딩 24
4.1.2. BiLSTM 25
4.1.3. BiLSTM을 이용한 Head-Tail 토크나이저 26
4.1.4. 후처리 27
제5장 Head-Tail 품사 태깅 모델 28
5.1.1. Subword 토큰 단위 Bigram 임베딩 28
5.1.2. BERT 29
5.1.3. 품사 태깅 모델 32
5.1.4. Embedding Concat 34
5.1.5. 후처리 36
제6장 실험 및 성능 평가 37
6.1. 학습 데이터 가공 37
6.1.1. Head-Tail 토크나이저 데이터셋 37
6.1.2. Head-Tail 품사 태그 데이터셋 38
6.2. 실험 설정 40
6.2.1. Head-Tail 토크나이저 40
6.2.2. Head-Tail 품사 태거 40
6.2.3. 실험장비 41
6.3. 성능 평가 42
6.3.1. 토크나이저 정확도 42
6.3.2. 품사 태거 정확도 44
6.3.3. 토크나이저 + 품사 태거 정확도 46
6.4. 태깅 오류분석 47
6.4.1. 태그 간소화 50
6.4.2. 기존 모델과의 비교 52
6.5. Head-Tail 실용성 평가 55
제7장 결론 59
참고문헌 61
Abstract 66
부록 9
부록 1. Head-Tail 분석코드 및 학습코드 Github 공개 68
부록 2. KCC150 형태분석 말뭉치 학습데이터 품사 빈도 69
부록 3. KCC150 형태분석 말뭉치 학습데이터 대분류 태그 70
부록 4. KCC150 Head-Tail 말뭉치 학습데이터 품사 빈도 71
부록 5. 품사 태거 오 분류 예시 73
부록 6. KCC150 Head-Tail 말뭉치 간소화 품사 빈도 75
부록 7. 대용량 말뭉치 분석 사이트 Konltk 77
표 1. 학습 데이터 19
표 2. KCC150 형태 분석 말뭉치 구성 21
표 3. KCC150 HEAD-TAIL 말뭉치 구성 22
표 4. Head-Tail 토크나이저 데이터셋 구축 37
표 5. Subword로 인한 BIO 데이터셋 구성 39
표 6. Head-Tail Subword BIO 데이터 구축 39
표 7. Head-Tail 토크나이저 하이퍼 파라미터 40
표 8. Head-Tail POS Tagger 하이퍼 파라미터(Sequence Concat) 40
표 9. Head-Tail POS Tagger 하이퍼 파라미터(Replace) 41
표 10. 실험 서버 사양 42
표 11. 토크나이저 모델별 정확도 42
표 12. 품사 태거 모델별 정확도 44
표 13. 토크나이저 태거 통합 정확도 46
표 14. 태깅 오류에 따른 단일 태그 분포 48
표 15. 태깅 오류에 따른 복합 태그 분포 48
표 16. 에러가 발생한 단일/복합 태그의 분포 49
표 17. 오분류 태그의 대분류 태그 분포 49
표 18. 태그 간소화후 품사태거 모델별 정확도 51
표 19. 태그 간소화 후 토크나이저 태거 통합 정확도 52
표 20. 기존 품사 태깅 모델 성능 평가 54
표 21. 형태소 분석기별 분류기 테스트 56
그림 1. Head-Tail 형태소 분석과정 19
그림 2. Head-Tail 토크나이저의 입출력 23
그림 3. 음절 단위 임베딩을 이용한 학습 24
그림 4. BiLSTM을 이용한 Head-Tail 토크나이저 모델 26
그림 5. Subword 단위 Bigram 29
그림 6. 트랜스포머의 Encoder 구조 31
그림 7. BERT 사전학습 모델 32
그림 8. Head-Tail 품사 태깅 모델 33
그림 9. Sequence Output Concat 35
그림 10. One Output Embedding Concat(Replace) 35