표제지
목차
국문요약 3
Abstract 5
제1장 서론 13
1. 사업 목적 14
2. 사업 수행 범위 14
3. 사업 수행 절차 17
4. 사업 추진 경과 18
제2장 사업 수행 내용 19
1. 매체 선정 및 계약 20
2. 데이터 수집 22
3. 데이터 1차 정제 39
4. 데이터 2차 정제 44
5. 메타데이터 작성 56
6. 인용 부호 수정 말뭉치 57
7. 문장 말뭉치 구축 65
제3장 사업 수행 결과 67
1. 신문 기사 정제 결과 68
2. 매체별 납품 파일명 72
[부록 1] 국가 언어 자원(말뭉치) 구축 및 활용 저작권 이용 허락 계약서 73
[부록 2] 저작재산권 비독점적 이용허락 계약서(2차적 저작물 작성권[번역 이용 허락] 관련) 79
[부록 3] 데이터 정제 작업 지침 85
[부록 4] 말뭉치 종류별 구축 예시 93
[부록 5] 신문기사 말뭉치 오류 검색 목록 96
판권기 104
〈표 1〉 사업 공정표 18
〈표 2〉 선정된 매체 구분 21
〈표 3〉 최초 수집 기사와 어절 수 23
〈표 4〉 원시 데이터 특징 예시(태그가 남아있는 경우) 24
〈표 5〉 원시 데이터 특징 예시(불특정 문자 포함) 25
〈표 6〉 원시 데이터 특징 예시(데이터 소실 1) 25
〈표 7〉 원시 데이터 특징 예시(데이터 소실 2) 26
〈표 8〉 데이터 특징 26
〈표 9〉 저작권 이용 문제로 인해 사용하지 않는 기사의 특징 42
〈표 10〉 불필요한 요소 제거 내용 50
〈표 11〉 원시 데이터와 정제된 데이터 비교 1 51
〈표 12〉 원시 데이터와 정제된 데이터 비교 2 52
〈표 13〉 원시 데이터와 정제된 데이터 비교 3(기사로 볼 수 없는 정보 삭제) 53
〈표 14〉 2023년 신문 기사 주제별 통계 56
〈표 15〉 인용 부호 치환 표 58
〈표 16〉 인용 부호 수정 데이터 정제 전후 59
〈표 17〉 최종 선정 기사 수 60
〈표 18〉 '한ㆍ중ㆍ일 호환용 한자 영역' 한자 치환 표 61
〈표 19〉 치환 코드 목록 63
〈표 20〉 오타 글자 65
〈표 21〉 문장 말뭉치 데이터 정제 66
〈표 22〉 신문 기사 정제 총괄표 69
〈표 23〉 구축 연도별 기사와 어절 수 70
〈표 24〉 월별 구축 어절 수 71
〈표 25〉 주제별 기사 및 구축 어절 수 71
〈표 26〉 말뭉치 파일명 72
〈그림 1〉 구축 공정별 내용 17
〈그림 2〉 연도별 매체 비율과 상위, 하위 기사수 매체 22
〈그림 3〉 오류 유형 ①: 글자 깨짐 27
〈그림 4〉 오류 유형 ②: 캡션 정보와 본문이 구분되지 않는 경우 27
〈그림 5〉 오류 유형 ③: 중간 제목이 본문 사이에 들어간 경우 28
〈그림 6〉 오류 유형 ④-1: 웹 페이지와는 다르게 기사 내용이 변형됨 29
〈그림 7〉 오류 유형 ④-2: 웹 페이지와는 다르게 기사 내용이 변형됨 30
〈그림 8〉 오류 유형 ⑤: 문장이 임의로 줄바꿈되어 있는 경우 30
〈그림 9〉 오류 유형 ⑥: 외부 기고가 정보가 삭제되어 원시 데이터에 없는 경우 31
〈그림 10〉 오류 유형 ⑦: 평소에 쓰이지 않는 음절이 깨지면서 ?로 치환되는 현상 32
〈그림 11〉 오류 유형 ⑧: 오류 수정 33
〈그림 12〉 오류 유형 ⑨: 불필요한 부분 삭제 34
〈그림 13〉 오류 유형 ⑩: 특수기호 오류 35
〈그림 14〉 오류 유형 ⑪: 기사 내용 반복 36
〈그림 15〉 오류 유형 ⑫: 캡션이나 문장이 붙어 버리는 오류 37
〈그림 16〉 오류 유형 ⑬: 용어 설명이 중간에 삽입되면서 임의로 줄바꿈됨 37
〈그림 17〉 오류 유형 ⑭: 서명 기호(〈,〉)와 내용이 사라짐 38
〈그림 18〉 원본 데이터와 정제된 데이터의 예 50
〈그림 19〉 작업 편집 화면 54
〈그림 20〉 작업 프로그램 화면 54
〈그림 21〉 데이터 정제 2차 검수 공정 55
〈그림 22〉 인공 지능을 활용한 주제 분류 56
〈그림 23〉 연도별 기사 주제 통계 57
〈그림 24〉 문장 말뭉치 개념 65
〈그림 25〉 문단 내 문장 분할 수(상/하위 5개 매체) 66
〈그림 26〉 구축 공정별 내용 68
〈그림 27〉 매체별 최종 기사 수 및 월별 구축 어절 수 70