본 논문의 목적은 법률 도메인 특화 기계번역 모델(본 연구의 '민법 도메인 특화 모델')을 구축해 범용 기계번역과 번역 품질을 비교함으로써 법률 도메인 특화 기계번역 모델의 번역 품질 개선도와 도메인 특화의 효과를 밝히는 것이다. 이를 위해 다음과 같은 분석을 실시하였다.
첫째, 법률 도메인 특화 기계번역이 갖는 다양한 특성에 따라 법언어학, 번역학, 기계번역의 다각적인 관점에서 본 연구를 위한 이론적 토대를 고찰하였다. 법언어학 관점에서 법률 언어는 정확성, 모호성, 정밀성, 명료성 등의 언어 사용상의 원칙 및 특징을 가지며 일상 언어와의 차이를 보인다. 번역학적 관점에서는 법률 텍스트의 텍스트 유형은 정보적 텍스트에 속하며, 번역 시에 그에 부합하는 언어 사용역(register)을 고려해야 한다. 기계번역 관점에서 도메인 특화는 특정 도메인 지식을 전이학습(transfer learning)함으로써 이루어진다. 본고는 중국 민법전의 중한 번역 쌍 데이터의 미세조정(fine tuning)을 통해 전이학습을 실시하였다.
둘째, 중국 민법전을 중심으로 법률 텍스트가 가지는 언어적 특징을 분석하였다. 분석 내용은 어휘 사용 빈도, 법률 전문용어 추출, 정형 표현, '的'구문이다.
먼저 민법전에서 최고빈도 어휘는 '的'(4,047회)였으며, 이 밖에도 '应当'(748회), '可以'(478회), '不得'(195회) 등 양태동사(情态动词)와 '或者'(1,026회), '等'(252회), '其他'(240회) 등 모호성을 나타내는 어휘의 사용 빈도가 높게 나타났다. 법률 전문용어 추출에서 관찰 코퍼스(민법전)와 참조 코퍼스(ToRCH 2019의 일반 텍스트)를 비교한 결과, 민법전에 사용된 명사의 52%(252개 어휘)가 일반 텍스트에서 한 번도 사용되지 않았다. 이를 통해 어휘가 특정 도메인의 특징을 가장 확실하게 드러내는 요소임을 확인하였고, 참조 코퍼스에서 출현 빈도가 낮은 어휘일수록 법률 전문용어로 사용될 가능성이 높았다.
민법전의 정형 표현은 N-gram을 통해 분석하였다. 정형 표현에서 2-gram은 '명사+명사' 조합 형태의 자유 결합, 3-gram은 공기나 결합 관계에서 제약성이 강한 연어(collocation), 4-gram은 덩어리(chunk) 형태의 표현 문형의 비중이 높게 나타났다. 5-gram, 6-gram은 자유 결합이 거의 나타나지 않고 표현 문형이 절대적으로 높은 비중을 보였다. '的'구문은 중국어 법률 텍스트에서만 사용되는 독특한 요소로 민법전에서 출현 빈도가 1,201회에 달했다. '的'구문을 지칭(자기지칭, 전환지칭) 또는 조건 관계의 표지로 보는 여러 관점이 존재하는데, 자기지칭과 전환지칭(주어, 목적어)으로 사용된 '的'구문을 생략하거나 해당 문장성분으로 '환원'해도 가정의 의미가 유지되기 때문에 법률 텍스트에서 '的'구문을 모두 '조건' 의미로 번역해도 무방함을 확인하였다.
넷째, '진단'의 측면에서 범용 기계번역(파파고)의 민법전 중한 번역에서 나타나는 오류 항목을 고찰하였다. 이를 위해 귀납적 분석 방식으로 중한 법률 도메인 특화 기계번역의 구현 과정에서 '소거'해야 할 주요한 오류 항목과 그 문제점을 상세하게 기술하였다. 세부 오류 항목의 분석 결과, 법률 어휘와 전문용어의 부정확한 사용이 가장 시급하게 해결해야 할 오류로 나타났다.
다섯째, 전이학습(transfer learning)의 일환인 미세조정(fine tuning)을 통해 실제로 법률 도메인 특화를 실시하였다. 미세조정용 데이터는 제4장에서 파파고의 민법전 번역 결과물에 대해 풀 포스트에디팅(F-MTPE)을 실시해 구축하였고, 해당 데이터 2,500개 문장으로 미세조정함으로써 '민법 도메인 특화 모델'을 구축하였다. '민법 도메인 특화 모델'의 번역 품질 개선도를 검증하기 위해 테스트를 실시하고 정량분석(BLEU Score)과 정성분석(수동 번역 품질 분석)을 진행하였다. BLEU Score 측정 결과, '민법 도메인 특화 모델'은 71.67점으로 가장 높은 점수를 보였으며 이를 통해 도메인 특화 모델의 번역 품질이 매우 우수하다는 사실을 확인했다. 수동 번역 품질 분석 결과, '민법 도메인 특화 모델'은 도치, 정형 표현, '的'구문 항목에서 100% 개선되는 결과를 보였다. 특히, 법률 텍스트의 '的'구문을 '조건' 의미로 번역하기 위한 데이터 가공의 의도가 고스란히 반영되어 '민법 도메인 특화 모델'에서 해당 오류 빈도가 0회로 나타나면서 도메인 특화의 효과, 중요성, 필요성을 보여주는 강력한 증거를 제공하였다.
이상의 논의를 종합해 보면, 본 논문은 중국 민법전을 중심으로 한 법률 도메인의 언어적인 특징 분석, 기존에 발생했던 오류 분석, 미세조정용 DB 구축, 그리고 미세조정에 이르는 일련의 과정을 통해 법률 도메인 특화 모델의 구현과 방법을 실제로 보여주었다. 나아가 법률 도메인 특화를 언어학적 분석에 머무르지 않고 공학 전문가와의 협업과 테스트를 통해 법률 도메인 특화 모델의 번역 품질 개선도를 보여주었다. 그 결과 본 논문의 목적인 법률 도메인 특화 기계번역 모델의 번역 품질 개선과 도메인 특화의 효과를 명확하게 밝혔다.