목차

표제지

목차

요약문 20

SUMMARY 21

제1장 서론 22

제2장 자연어처리 기술 24

제1절 자연어처리의 개요 24

제2절 형태소 분석 및 형태소 품사 부착 24

제3절 함의(Entailment) 26

제4절 질의응답(Question Answering System) 28

제5절 정보 추출(Information Extraction) 29

제6절 구문 분석 30

제7절 상호 참조 31

제8절 개체명 32

제9절 의미역 33

제10절 감성 분석 35

제3장 기술 동향 36

제1절 학술 대회 36

1. ICON 36

2. ACL 37

3. 한글 및 한국어 정보처리 학술대회 40

제2절 경진 대회 45

1. NLP tools contest 45

2. EVALITA 47

3. TAC 61

4. 국어 정보 처리 시스템 경진 대회 64

제4장 언어지능 기술이 적용된 실제 사례 조사 66

제1절 Virtual Assistance 66

제2절 Social Network analytics tools 67

1. Keyhole 68

2. Signal Media 70

3. Brandwatch 71

제5장 언어처리 기술 수준 73

제1절 공개된 SW의 종류와 성능 73

1. CoreNLP 73

2. Natural Language Toolkit(NLTK) 74

3. KoNLPy 78

4. Google SyntaxNet 79

5. Apache OpenNLP 80

6. Apache Lucene 82

7. UIMA 82

8. MALLET 83

9. ESPRESSO 84

10. 꼬꼬마 85

11. 코모란 86

12. 동아대학교 띄어쓰기 모델 86

제2절 연구소, 대학, 기업의 연구 수준 87

1. Stanford 87

2. Berkeley group 88

3. MIT 89

4. Sheffield 90

5. Univ. of Washington (UW) 90

6. MS Human language technologies 91

7. IBM NLP group 92

8. 다이퀘스트 93

9. ETRI 94

제6장 지식데이터베이스 현황 조사 95

제1절 한국어 지식 데이터베이스 95

1. 서울대학교 95

2. 언어정보연구원 96

3. 국립국어원 97

4. ETRI 98

5. 한국과학기술정보연구원과 충남대학교 99

6. 울산대학교 100

7. 고려대학교 100

8. 펜실베니아 대학교 101

9. LDC 101

10. kAIST 102

11. 언어자원은행 102

제2절 해외 지식 데이터베이스 104

1. 영국 코퍼스 104

2. 미국 코퍼스 105

3. 체코 코퍼스 105

4. 헝가리 코퍼스 106

5. 러시아 코퍼스 106

6. 이탈리아 코퍼스 107

7. 그리스 코퍼스 107

8. 독일 코퍼스 108

9. 중국 코퍼스 108

제3절 모니터 코퍼스 109

1. The Bank of English(BoE) 코퍼스 109

2. Global English Monitor 코퍼스 109

제4절 Brown 계열 코퍼스 109

제5절 공시적 코퍼스 110

1. The International Corpus of English(ICE) 111

2. The Longman/Lancaster Corpus 111

3. The Longman Written American Corpus 112

4. The CREA corpus 112

5. The LIVAC corpus 113

제6절 통시적 코퍼스 113

1. The Helsinki corpus 113

2. The ARCHER corpus 114

3. The Corpus of Early English Correspondence 114

4. The Zurich English Newspaper Corpus(ZEN) 115

5. 영어대화 코퍼스 115

제7절 음성 코퍼스 115

1. The London-Lund Corpus 115

2. 10대 언어의 Bergen corpus 116

3. The Spoken corpus of the Survey of English Dialect 116

4. The Intonational Variation in English Corpus 116

5. The HongKong Corpus of Conversational English(HKCCE) 117

제8절 학업 및 전문영어 코퍼스 118

1. The Michigan Corpus of Academic Spoken English 118

2. The British Academic Spoken English Corpus(BASEC) 119

3. The Academic Corpus 119

4. The Corpus of Professional English(CPE) 120

제9절 구문 분석 코퍼스 120

1. The Lancaster-Leeds Treebank 121

2. The Lancaster Parsed Corpus 121

3. The SUSANNE corpus 121

4. The Penn Treebank 121

제10절 Developmental and learner corpus 122

1. The Child Language Data Exchange System 122

2. The Louvain Corpus of Native English Essays 122

3. The Polytechnic of Wales corpus 123

4. The Cambridge Learner Corpus 123

5. The HKUST Corpus of Learner English 123

6. The Japanese EFL Learner corpus 123

7. The Standard Speaking Test Corpus 124

제11절 다국어 코퍼스 124

1. The English-Norwegian parallel Corpus 124

2. The English-Swedish Parallel Corpus 124

3. The Oslo Multilingual Corpus 125

4. The IJS-ELAN Slovene-English Parallel Corpus 125

5. The CLUVI parallel corpus 125

6. The PAROLE corpus 126

7. The EMILLE corpus 126

8. Hong Kong parallel Text 127

제12절 영어 이외의 단일 언어 코퍼스 127

1. The COSMAS corpus 127

2. The CETEMPúblico Corpus 128

3. The INL corpus 128

4. The CEG corpus 128

5. The Scottish Corpus of Texts and Speech 129

6. Academia Sinica Balanced Corpus 129

7. Spoken Chinese Corpus of Situated Discourse 130

제7장 결론 및 시사점 131

참고문헌 132

판권기 135

〈표 2-1〉 프레임 예 29

〈표 3-1〉 제28회 한글 및 한국어 정보처리 학술대회 우수논문 45

〈표 3-2〉 POS Tagset 47

〈표 3-3〉 속성값을 부착하지 않는 경우 예시 52

〈표 3-4〉 FactA 주석 부착 예시 52

〈표 3-5〉 NEEL-IT의 분류체계 55

〈표 3-6〉 PoSTWITA의 데이터 예 56

〈표 3-7〉 PoSTWITA 태그 셋 57

〈표 3-8〉 SENTIPOLC 데이터 정보 60

〈표 4-1〉 Keyhole에서 확인할 수 있는 정보 69

〈표 5-1〉 CoreNLP 개요 73

〈표 5-2〉 CoreNLP의 지원 언어 내역 73

〈표 5-3〉 CoreNLP의 모듈별 성능과 레퍼런스 74

〈표 5-4〉 NLTK 개요 74

〈표 5-5〉 NLTK의 Dependency Parser 모듈 75

〈표 5-6〉 NLTK의 Sentiment Analysis 모듈 76

〈표 5-7〉 KoNLPy 개요 78

〈표 5-8〉 KoNLPy의 모듈 78

〈표 5-9〉 Google SyntaxNet 개요 79

〈표 5-10〉 Google SyntaxNet의 성능 79

〈표 5-11〉 Apache OpenNLP 개요 80

〈표 5-12〉 Apache OpenNLP의 모듈 81

〈표 5-13〉 Apache Lucene 82

〈표 5-14〉 UIMA 개요 82

〈표 5-15〉 MALLET 개요 84

〈표 5-16〉 MALLET의 모듈 84

〈표 5-17〉 ESPRESSO 개요 85

〈표 5-18〉 ESPRESSO의 모듈과 알고리즘 85

〈표 5-19〉 꼬꼬마 개요 85

〈표 5-20〉 꼬꼬마 형태소 분석기의 성능 86

〈표 5-21〉 코모란 개요 86

〈표 5-22〉 동아대학교 띄어쓰기 모델 87

〈표 5-23〉 MS에서 제공하는 API들 92

〈표 5-24〉 IBM에서 제공하는 API들 93

〈표 5-25〉 IBM에서 제공하는 API들 94

〈표 6-1〉 연세 코퍼스 구성 96

〈표 6-2〉 전자사전 구성 97

〈표 6-3〉 문어 코퍼스 양 98

〈표 6-4〉 구어 코퍼스 양 98

〈표 6-5〉 배포 중인 데이터베이스 목록 99

〈표 6-6〉 음성 데이터 정보 102

〈표 6-7〉 전자사전 정보 103

〈표 6-8〉 코퍼스 정보 103

〈표 6-9〉 코어넷 정보 103

〈표 6-10〉 영국 텍스트 코퍼스 구성 104

〈표 6-11〉 영국 음성 코퍼스 구성 104

〈표 6-12〉 미국 코퍼스의 텍스트 카테고리 105

〈표 6-13〉 체코 코퍼스 공시적 언어의 구성 105

〈표 6-14〉 체코 코퍼스 통시적 언어의 구성 106

〈표 6-15〉 헝가리 코퍼스 카테고리 106

〈표 6-16〉 러시아 코퍼스 카테고리 107

〈표 6-17〉 CORIS 코퍼스의 구성 107

〈표 6-18〉 독일 코퍼스의 구성 108

〈표 6-19〉 중국어 MCLC 코퍼스의 구성 108

〈표 6-20〉 Brown 계열 코퍼스의 구성 110

〈표 6-21〉 ICE 음성 데이터의 구성 111

〈표 6-22〉 Helsinki Diachronic Corpus의 기간별 정보 113

〈표 6-23〉 ZEN 데이터의 구성 115

〈표 6-24〉 Bergen Corpus의 나이 그룹 116

〈표 6-25〉 HKCCE의 설계 기준 117

〈표 6-26〉 MICASE corpus의 정보 119

〈표 6-27〉 BASEC corpus의 정보 119

〈표 6-28〉 The Academic corpus의 세부 구성 120

〈표 6-29〉 Penn Treebank 1의 구성 요소 122

〈표 6-30〉 Oslo Multilingual 코퍼스의 정보 125

〈표 6-31〉 CLUVI 코퍼스의 정보 126

〈표 6-32〉 Academia Sinica Balanced 코퍼스의 정보 129

[그림 2-1] 영어권 구문 분석의 예 31

[그림 2-2] 상호 참조 예 32

[그림 2-3] 한국어 의미격 인식 결과 34

[그림 3-1] FactA의 이벤트 인식 및 주석 방법 예시 49

[그림 4-1] Keyhole의 분석 예 69

[그림 4-2] Brandwatch의 분석 예 72

[그림 5-1] NLTK parse tree display의 예 77

[그림 5-2] UIMA의 구조 83

[그림 6-1] IDG - "글에서 감정을 읽다" 표지 95