표제지
목차
국문요약 3
Abstract 4
제1장 사업 개요 8
1.1. 사업의 목적 및 필요성 9
1.2. 사업의 범위 9
1.3. 연구진의 구성 11
1.4. 사업 수행 전략 13
1.5. 기대 효과 14
제2장 사업 추진 경과 16
2.1. 사업 수행 절차와 일정 17
2.2. 분석 대상 말뭉치와 분석 요소 선정 18
2.3. 말뭉치 부적절성 분석 작업 지침 작성 24
2.4. 말뭉치 부적절성 분석 작업 도구 개발 26
2.5. 말뭉치 부적절성 분석 작업 수행 30
2.6. 부적절성 말뭉치 구축 36
제3장 사업 주요 내용 37
3.1. 부적절성의 개념 설정 38
3.2. 부적절성의 분석 및 주석(태깅) 단위 설정 39
3.3. 부적절성의 명시성 분석 및 주석 40
3.4. 부적절성의 맥락 주석 42
3.5. 부적절성의 영역 주석 43
3.6. 부적절성의 강도 주석 45
3.7. 부적절성 말뭉치의 비식별화 46
제4장 사업 결과와 논의 및 제안 사항 47
4.1. 사업 결과 48
4.2. 논의 및 제언 54
참고문헌 57
[붙임 1] 말뭉치 부적절성 분석 작업 지침 61
1. 부적절성의 개념 63
2. 부적절성의 분석 요소 64
2.1. 명시성 64
2.2. 맥락 64
2.3. 영역 65
2.4. 강도 65
3. 부적절성의 분석 단위와 주석(태깅) 단위 66
3.1. 분석 단위 66
3.2. 주석(태깅) 단위 66
4. 부적절성의 주석 방법 68
4.1. 명시성 주석 68
4.1.1. 명시성의 표현 범위(시작-종료, begin-end) 68
4.1.2. 명시 70
4.1.3. 비명시 75
4.1.4. 명시와 비명시가 함께 나타나는 경우 80
4.2. 맥락 주석 81
4.2.1. 부정적 맥락 81
4.2.2. 긍정적 맥락 82
4.3. 영역 주석 84
4.3.1. 복수 영역의 처리 84
4.3.2. 성 86
4.3.3. 연령/세대 87
4.3.4. 신체 88
4.3.5. 문화 89
4.3.6. 관계/조건 90
4.3.7. 기타 94
4.4. 강도 주석 96
4.4.1. 강 96
4.4.2. 약 98
5. 개인정보 판별 기준과 비식별화 태그 세트 100
5.1. 개인정보 포함 문장 판별 기준 100
5.2. 개인정보 비식별화 태그 102
[붙임 2] 부적절성 관련 어휘(표현) 목록 103
판권기 108
〈표 1〉 분석/구축팀 구성 명단 12
〈표 2〉 사업 수행 일정 17
〈표 3〉 '명시성'의 유형과 범위 40
〈표 4〉 '맥락'의 유형과 범위 42
〈표 5〉 '영역'의 유형과 범위 43
〈표 6〉 '강도'의 유형과 범위 45
〈표 7〉 부적절성 문장의 '명시성', '강도', '맥락' 관련 종합적 분포 48
〈표 8〉 부적절성 문장의 '명시성', '영역' 관련 종합적 분포(단일 영역 기준) 50
〈표 9〉 부적절성 문장의 '명시성', '영역' 관련 종합적 분포(복합 영역 기준) 52
[그림 1] 과제 수행 조직 및 인원 현황 11
[그림 2] 사업 수행 절차 17
[그림 3] 아이달고나 로그인 화면 26
[그림 4] 아이달고나 1단계 부적절성 문장 선별 화면 예시 27
[그림 5] 아이달고나 2단계 부적절성 분석 요소 주석 화면 예시 28
[그림 6] 아이달고나 2단계 검수 작업 화면 예시 29
[그림 7] 검수 과정에서의 총괄 공동연구원 메모 예시 30
[그림 8] 작업자 분석 작업 현황(1월 25일 기준) 31
[그림 9] 작업자 분석 작업 현황(2월 18일 기준) 35
[그림 10] 부적절성 말뭉치 json 파일 예시 36
[그림 11] 부적절성 문장의 '명시성' 관련 분포 49
[그림 12] 부적절성 문장의 '강도' 관련 분포 49
[그림 13] 부적절성 문장의 '맥락' 관련 분포 50
[그림 14] 부적절성 문장의 '영역' 관련 분포(단일 영역 기준) 51
[그림 15] 부적절성 문장의 '영역' 관련 분포(복합 영역 기준) 53