표제지
목차
국문 요약 10
I. 서론 12
1.1. 연구 배경 12
1.2. 연구 동기 15
1.3. 연구 목적 19
II. 관련 연구 21
2.1. 딥러닝 기반 자연어 처리 기술 21
2.2. 전이학습 및 추가 사전학습 26
2.3. 국가 R&D 정보 분석 32
2.4. 국가 R&D 정보 분류 37
III. 제안 방법론 42
3.1. R&D 전문 언어모델 구축 방법론 개요 42
3.2. R&D 전문어 식별 및 확장 토크나이저 구축 43
3.3. R&D 분야 전문 추가 사전학습 44
IV. 실험 49
4.1. 실험 개요 49
4.2. 전문어 식별 및 전문어 토크나이저 구축 결과 52
4.3. R&D 분야 전문 추가 사전학습 결과 54
4.4. 성능 평가 실험 개요 및 결과 56
4.5. 추가 사전학습의 효과 측정 실험 개요 및 결과 64
V. 결론 68
참고 문헌 71
Abstract 86
〈표 1〉 국가 R&D 과제 정보의 주요 항목 33
〈표 2〉 국가과학기술표준분류체계 연구 분야에 따른 대분류(2018년 개정) 39
〈표 3〉 국가 R&D 분야별/연도별 과제 데이터 건수 49
〈표 4〉 추가 사전학습 및 실험데이터 구성 51
〈표 5〉 실험 환경 개요 52
〈표 6〉 분야별 추가 전문어 선정 결과 (일부) 52
〈표 7〉 확장된 토크나이저를 통한 과제 데이터 분절 (일부) 54
〈표 8〉 R&D KoBERT와 KoBERT-Base의 문장 표현 학습 결과 비교 56
〈그림 1〉 국가 R&D 사업 참여 주체별 분석 목적 13
〈그림 2〉 전문 분야와 범용 분야 간 말뭉치 분포 16
〈그림 3〉 전문어 학습 부족으로 인한 분석 과제의 성능 저하 17
〈그림 4〉 전문 분야에 대한 사전학습과 추가 사전학습 18
〈그림 5〉 텍스트 구조화 및 활용 22
〈그림 6〉 트랜스포머 모델 구조 25
〈그림 7〉 BERT 모델의 사전학습 및 파인튜닝 27
〈그림 8〉 사전학습 언어모델의 말뭉치와 타 분야 간 단어 유사도 28
〈그림 9〉 SciNER 구조 30
〈그림 10〉 IBM Science Summarizer 프레임워크 31
〈그림 11〉 국가과학기술지식정보서비스(NTIS) 개념도 38
〈그림 12〉 추가 사전학습 기반 국가 R&D 전문 언어모델 구축 개요 42
〈그림 13〉 R&D 용어 확장을 위한 전문어 식별 예 44
〈그림 14〉 확장 토크나이저 기반 전문어 보존 분절 45
〈그림 15〉 KoBERT 내부 구조 46
〈그림 16〉 R&D 문장 추가 사전학습 예 47
〈그림 17〉 국가과학기술표준분류 체계(일부) 50
〈그림 18〉 R&D KoBERT를 통한 학습 (일부) 55
〈그림 19〉 성능 평가 실험 개요 57
〈그림 20〉 에폭별 손실 값 비교 58
〈그림 21〉 R&D KoBERT와 KoBERT-Base 모델의 분류 성능 비교 61
〈그림 22〉 R&D KoBERT와 KoBERT-Base 모델의 성능 비교(Freeze) 64