초록

최근 딥러닝(Deep Learning) 기술이 크게 발전함에 따라 국가 R&D 분야의 대량의 텍스트 문서(Text Document)를 다양한 관점으로 분석하기 위한 수요가 급격히 증가하고 있다. 특히 국가 R&D 사업 전주기의 주요 참여 주체인 정부 관계부처, 과제관리기관 그리고 연구자들은 국가 R&D 투자 효율성과 연구 생산성 제고를 위한 수단으로 데이터 기반의 연구개발 활동을 추진하고자 한다. 그러나 텍스트 데이터로 구성된 과제(Project), 특허(Patent) 그리고 논문(Paper)을 분석하기 위해서는 텍스트 데이터를 구조화하는 자연어 처리(Natural Language Processing)가 필수적이다.

최근 딥러닝 기술을 기반으로 크게 개선된 자연어 처리 기술은 다양한 분야의 데이터에 적용되어 괄목할 성과를 거두면서 크게 주목받고 있다. 특히 대량의 말뭉치 데이터를 미리 학습한 사전학습 모델(Pre-trained Language Model)에 관한 활용 및 개선에 관한 연구가 활발히 이루어지고 있으며, 대표적인 사전학습 모델인 BERT(Bidirectional Encoder Representations from Transformers) 모델의 활용에 대한 관심 역시 매우 높아지고 있다.

하지만 BERT 언어모델의 사전학습 대상인 위키피디아 문서는 일반적으로 범용 말뭉치로 여겨지고 있으며, 이는 국가 R&D와 같이 고도로 전문화된 분야의 말뭉치와는 다른 분포를 보인다. 이에 따라 국가 R&D 문서에서 높은 빈도로 사용되는 전문어는 BERT 언어모델에 포함되지 않아 충분히 학습되지 못하는 경우가 발생할 수 있으며, 이는 BERT 모델을 통한 전문 분야 문서 이해의 한계로 지적되고 있다. 이에 따라 본 연구에서는 최근 활발하게 연구되고 있는 추가 사전학습(Further Pre-training) 기반의 전이 학습(Transfer Learning)기법을 활용하여, 순수한 BERT 모델에 국가 R&D 분야의 지식을 전이한 R&D KoBERT 모델을 구축하는 방안을 제안한다. 또한, 본 연구에서 제안한 모델의 성능을 평가하기 위해 국가 R&D 수행과제 건수가 상위인 보건의료, 농림수산식품, 기계, 생명과학 그리고 정보통신 분야를 대상으로 분류 분석을 수행한 결과, 전체 5개의 국가 R&D 분야 중 4개 분야에서 제안 모델이 순수한 KoBERT-Base 모델보다 더 우수한 성능을 나타내는 것을 확인하였다.