표제지
목차
Ⅰ. 서론 9
1. 연구 필요성 및 목적 9
2. 연구 내용 11
2.1. 학습 데이터 생성 시스템 11
2.2. 기계학습 시스템 12
2.3. 실험 환경 구성 13
Ⅱ. 이론적 배경 15
1. 자연어 처리 15
1.1. 형태소해석 16
1.2. 구문해석 16
1.3. 의미해석 18
1.4. 문장 경계 인식 시스템 19
1.5. 형태소 분석 시스템 20
2. 신경망 21
2.1. Optimizer 21
2.2. Word2Vec 23
2.3. 신경망 평가 방식 26
3. 텍스트 언어학 29
3.1. 결속장치 29
4. 선행 연구 32
4.1. 규칙 기반 문단 구분 시스템 32
4.2. 기계학습 기반 문단 구분 시스템 33
Ⅲ. 문단 구분 시스템을 위한 설계 및 구현 34
1. 설계 34
1.1. 학습 데이터 생성 시스템 36
1.2. 기계학습 시스템 39
Ⅳ. 연구 결과 및 분석 44
1. 환경 요소에 따른 결과 비교 및 분석 44
1.1. 뭉치 크기를 변인으로 한 실험 결과 및 분석 44
1.2. 패딩 크기를 변인으로 한 실험 결과 및 분석 45
1.3. Optimizer를 변인으로 한 실험 결과 및 분석 46
1.4. 변인에 따른 실험 결과 47
2. 규칙 기반 시스템과 결과 비교 및 분석 48
Ⅴ. 결론 및 제언 49
1. 결론 49
2. 제언 50
참고문헌 51
Abstract 54
〈표 1〉 학습 데이터 생성 시스템의 목적 11
〈표 2〉 분류 결과와 실제 정답에 따른 명칭 26
〈표 3〉 문법적 결속장치 예시 29
〈표 4〉 부사 예시 30
〈표 5〉 논리적 결속장치 예시 30
〈표 6〉 의미적 결속장치 예시 31
〈표 7〉 인용 장치 예시 31
〈표 8〉 뭉치 크기에 따른 성능 비교 45
〈표 9〉 패딩 크기에 따른 성능 비교 45
〈표 10〉 Optimizer의 차이에 따른 성능 비교 46
〈표 11〉 규칙 기반 시스템과 기계학습 시스템의 성능 비교 48
〈그림 1〉 구구조 문법 17
〈그림 2〉 의존 문법 17
〈그림 3〉 SGD 기반 알고리즘 발전 과정 21
〈그림 4〉 희소 벡터 예시 23
〈그림 5〉 임베딩 벡터의 예시 24
〈그림 6〉 CBOW 모델(좌)과 Skip-Gram 모델(우)의 학습 순서도 25
〈그림 7〉 정밀도(Precision) 수식 27
〈그림 8〉 재현율(Recall) 수식 27
〈그림 9〉 F1-Score 수식 28
〈그림 10〉 학습 데이터 생성 시스템 순서도 34
〈그림 11〉 기계학습 시스템 순서도 35
〈그림 12〉 형태소 추출 예시 36
〈그림 13〉 품사 태깅 예시 36
〈그림 14〉 적합 요소 추출 예시 37
〈그림 15〉 뭉치 리스트 제작 예시 37
〈그림 16〉 문단 경계 위치 정보 예시 38
〈그림 17〉 입력 데이터 예시 39
〈그림 18〉 학습 데이터 크기 분포 그래프 41
〈그림 19〉 정수 인코딩, 패딩 후 데이터 예시 41