표제지
목차
국문 초록 14
제1장 서론 17
1.1. 연구 목적 및 필요성 17
1.2. 선행연구 검토 24
1.2.1. 법언어학에 관한 연구 24
1.2.2. 법률번역에 관한 연구 30
1.2.3. 법률 도메인 특화 기계번역에 관한 연구 33
1.3. 연구대상 및 연구방법 39
1) 민법전 코퍼스 구축 41
2) 범용 기계번역의 민법전 중한 번역에 대한 품질 분석 42
3) 전이학습 및 법률 도메인 특화 전후 번역 품질 비교 43
1.4. 논의의 구성 44
제2장 이론적 배경 고찰 46
2.1. 법언어학 관점의 고찰 47
2.1.1. 법언어학과 법률 언어 47
2.1.2. 법률 언어의 사용 원칙 50
2.1.3. 법률 언어의 특징 55
2.2. 번역학적 관점의 고찰 59
2.2.1. 등가 이론과 법률 텍스트 번역 59
2.2.2. 텍스트 유형과 법률 텍스트 번역 64
2.3. 기계번역 관점의 고찰 70
2.3.1. 신경망 기계번역과 트랜스포머 모델 71
2.3.2. 전이학습과 법률 도메인 특화 76
2.4. 번역 품질 평가 관점의 고찰 79
2.4.1. 번역 품질 평가와 법률 텍스트 번역 80
2.4.2. 기계번역의 번역 품질 평가 84
제3장 법률 텍스트의 코퍼스 구축과 언어적 특징 분석 89
3.1. 민법전 코퍼스 구축 90
3.1.1. 민법전 코퍼스 구축 절차 및 분석 도구 90
3.1.2. 텍스트 수집과 전처리 91
3.1.3. 1차, 2차 어휘 추출 92
3.2. 민법전에 대한 기초 통계 93
3.2.1. 조문별 통계 97
3.2.2. 문장별 통계 97
3.3. 민법전의 언어적 특징 분석 99
3.3.1. 어휘 사용 빈도 99
3.3.2. 법률 전문용어 추출 106
3.3.3. 정형 표현 114
3.3.4. '的'구문 123
3.4. 소결 132
제4장 법률 텍스트의 범용 기계번역 오류 분석과 포스트에디팅 134
4.1. 범용 기계번역의 귀납적 오류 분석 135
4.1.1. 귀납적 오류 분석의 필요성 135
4.1.2. 오류 분석 절차 136
4.1.3. 오류 유형의 귀납 기준 139
4.2. 범용 기계번역의 민법전 중한 번역 오류 항목 분석 140
4.2.1. 오류 항목 통계 140
4.2.2. 오류 항목 상세 분석 142
4.3. 포스트에디팅을 통한 미세조정용 데이터 구축 164
4.3.1. 민법전 포스트에디팅 164
4.3.2. 미세조정용 데이터 구축 168
4.4. 소결 173
제5장 법률 도메인 특화 기계번역 모델 구축 및 품질 분석 175
5.1. '민법 도메인 특화 모델' 구축 176
5.2. '민법 도메인 특화 모델'의 번역 품질 분석 182
5.2.1. 번역 품질 분석 과정 182
5.2.2. 번역 품질 자동평가 결과 186
5.2.3. 수동 품질 분석 결과 187
5.3. '민법 도메인 특화 모델'의 개선도 분석 198
5.3.1. 어휘 층위의 정확성 개선도 199
5.3.2. 통사 층위의 정확성 개선도 202
5.3.3. 텍스트 층위의 정확성 개선도 208
5.4. 소결 210
제6장 결론 212
참고문헌 217
中文摘要 229
부록 231
[부록 1] 전문용어 상위 100개 231
[부록 2] 미세조정 데이터 100개 (민법전 제1조~제100조) 234
[부록 3] 테스트 문장과 정답 문장 100개 258
[부록 4] '민법 도메인 특화 모델' 번역 테스트 결과 100개 270
〈표 1〉 중화인민공화국 민법전의 구성 40
〈표 2〉 Nida의 등가 분류 60
〈표 3〉 Koller의 등가 분류 62
〈표 4〉 Reiss의 텍스트 유형별 특징 65
〈표 5〉 대표적 법률 텍스트 번역 전략 68
〈표 6〉 Paul A. Horguelin, Louise Brunette의 번역 품질에 관한 설명 80
〈표 7〉 기계번역 자동평가 방식 분류 85
〈표 8〉 중-한 기계번역 수동평가 모델 87
〈표 9〉 민법전 개별 조문의 길이 및 문장부호 사용 97
〈표 10〉 민법전 개별 문장의 길이 및 문장부호 사용 98
〈표 11〉 민법전 상위 100개 고빈도 어휘 100
〈표 12〉 법률 어휘의 분류 107
〈표 13〉 민법전 상위 50개 키워드와 빈도 112
〈표 14〉 민법전의 N-gram 통계 115
〈표 15〉 2-gram 정형 표현 및 사용 빈도 117
〈표 16〉 3-gram 정형 표현 및 사용 빈도 118
〈표 17〉 4-gram 정형 표현 및 사용 빈도 120
〈표 18〉 5-gram, 6-gram 정형 표현 및 사용 빈도 122
〈표 19〉 민법전 명사 어휘 음절 수 122
〈표 20〉 민법전 '的'구문의 사용 양상 128
〈표 21〉 파파고의 민법전 중한 번역 오류 분석 절차 137
〈표 22〉 범용 기계번역의 오류 항목 귀납 기준 139
〈표 23〉 파파고의 민법전 중한 번역에 출현한 오류 항목 귀납 및 오류 통계 140
〈표 24〉 파파고의 민법전 문장부호 번역 오류 양상 159
〈표 25〉 ISO18587 MTPE 가이드라인 164
〈표 26〉 수정된 중한 포스트에디팅 가이드라인 166
〈표 27〉 MTPE로 가공한 미세조정용 DB 예시 169
〈표 28〉 오트란 일반 모델의 기본 파라미터 177
〈표 29〉 '민법 도메인 특화 모델' 구축에 사용한 미세조정 데이터 180
〈표 30〉 4가지 언어 모델의 번역 테스트 BLEU Score 186
〈표 31〉 4가지 언어 모델별 상세 오류 항목 187
〈표 32〉 어휘 층위에서 출현한 항목별 오류 빈도 200
〈표 33〉 민법 도메인 특화 모델의 어휘 층위 오류 개선도 통계 200
〈표 34〉 통사 층위에서 출현한 항목별 오류 빈도 203
〈표 35〉 민법 도메인 특화 모델의 통사 층위 오류 개선도 통계 203
〈표 36〉 텍스트 층위에서 출현한 항목별 오류 빈도 208
〈표 37〉 민법 도메인 특화 모델의 텍스트 층위 오류 개선도 통계 209
〈그림 1〉 AntConc의 4-gram 추출 예시 41
〈그림 2〉 파파고의 민법전 중한 번역 예시 42
〈그림 3〉 오트란 법률 모델의 테스트 문장 번역 44
〈그림 4〉 본고의 연구방법 및 절차 45
〈그림 5〉 언어학과 법언어학의 관계 48
〈그림 6〉 인코더-디코더 구조 72
〈그림 7〉 RNN 순환구조 73
〈그림 8〉 구글 신경망 기계번역 구조 74
〈그림 9〉 트랜스포머 아키텍처와 어텐션 구조 75
〈그림 10〉 전이학습 과정 77
〈그림 11〉 민법전 미세조정용 DB를 활용한 전이학습 78
〈그림 12〉 J.House(1997)가 제안한 원문과 번역문 분석 및 비교 체제 83
〈그림 13〉 민법전 코퍼스 구축 절차 91
〈그림 14〉 본고의 법률 어휘의 분류 109
〈그림 15〉 AntConc를 활용한 민법전의 키워드 추출 112
〈그림 16〉 민법전 N-gram type 누적 증가 그래프 116
〈그림 17〉 3-gram 표현 문형 '之 日 起' 예시 120
〈그림 18〉 파파고의 민법전 중한 번역 오류 분석 및 수정 과정 138
〈그림 19〉 파파고 민법전 번역의 어휘 층위 오류 항목과 출현 빈도 142
〈그림 20〉 파파고 민법전 번역의 통사 층위 오류 항목과 출현 빈도 149
〈그림 21〉 프레이즈(Phrase)를 활용한 민법전 MTPE 예시 167
〈그림 22〉 미세조정을 통한 '민법 도메인 특화 모델' 구축 프로세스 179
〈그림 23〉 '민법 도메인 특화 모델' 구축 결과 181
〈그림 24〉 언어 모델별 번역 품질 테스트 및 품질 비교 183
〈그림 25〉 파파고(범용I)의 테스트 문장 번역 결과 184
〈그림 26〉 오트란 일반 모델(범용II)의 테스트 문장 번역 결과 184
〈그림 27〉 오트란 법률 모델(특화I)의 테스트 문장 번역 결과 185
〈그림 28〉 언어 모델별 번역 품질 정확도 188
〈그림 29〉 언어 모델별 어휘 층위 번역 정확도 199
〈그림 30〉 민법 도메인 특화 모델의 어휘 층위 번역 품질 개선도 200
〈그림 31〉 언어 모델별 통사 층위 번역 정확도 202
〈그림 32〉 민법 도메인 특화 모델의 통사 층위 번역 품질 개선도 203