생몰정보
소속
직위
직업
활동분야
주기
서지
국회도서관 서비스 이용에 대한 안내를 해드립니다.
검색결과 (전체 1건)
원문 있는 자료 (1) 열기
원문 아이콘이 없는 경우 국회도서관 방문 시 책자로 이용 가능
목차보기더보기
표제지
목차
국문초록 9
ABSTRACT 10
제1장 서론 12
1.1. 연구 배경 및 개요 12
1.2. 논문의 구성 14
제2장 관련 연구 15
2.1. 잠재 디리클레 할당 15
2.2. Pointwise Mutual Information 17
2.3. Perplexity 18
2.4. 단어 군집화를 이용한 토픽 추출 18
제3장 제안 방법 20
3.1. 시스템 구조도 20
3.2. 전처리 모듈 22
3.2.1. 명사 추출 모듈 22
3.2.2. 불용어 제거 모듈 22
3.3. 토픽 추출 모듈 23
3.4. 토픽 보정 모듈 24
3.4.1. 토픽 내 단어 유사도 계산 모듈 24
3.4.2. 토픽 분리 모듈 25
3.4.3. 토픽 병합 모듈 28
제4장 실험 및 결과 32
4.1. 데이터 수집 및 실험 방법 32
4.1.1. 데이터 수집 32
4.1.2. 실험 방법 33
4.2. 실험 결과 34
4.2.1. LDA 파라미터 추정 34
4.2.2. LDA 기반 토픽 추출 36
4.2.3. 정답 토픽 추출 36
4.2.4. 제안 방법에 의한 토픽 추출 40
4.2.5. 실험 평가 44
제5장 결론 및 향후 계획 46
참고문헌 47
[표 3-1] LDA기법으로 추출된 토픽 23
[표 3-2] 토픽 내 단어 간 유사도의 예시 25
[표 3-3] "경찰"을 기준단어로 한 TC 결과 26
[표 3-4] TC간 거리 계산 예시 28
[표 3-5] TC₁, TC₂간 병합 예시 30
[표 4-1] 뉴스 데이터 32
[표 4-2] 불용어 사전의 일부 33
[표 4-3] TopicNum=35, α=1.0, β=0.1일 때 LDA로 추출된 토픽 36
[표 4-4] 정답 토픽 38
[표 4-5] 제안 방법으로 추출된 토픽 43
[그림 1-1] Peacock 프로그램 구조도 13
[그림 1-2] 토픽 중복 문제 및 토픽 혼재 문제 예시 14
[그림 2-1] LDA 모델 15
[그림 2-2] LDA 모델 생성 과정의 예시 16
[그림 2-3] 지역별 토픽 추출 시스템 구조도 19
[그림 3-1] 단어 유사도를 이용한 뉴스 토픽 추출 구조도 20
[그림 3-2] Topic Clique(TC) 21
[그림 3-3] 명사(NN) 추출 예시 22
[그림 3-4] LDA로 추출된 토픽의 단어빈도 순서 25
[그림 3-5] "경찰"을 기준으로 하였을 때 TC 검색 과정의 예시 26
[그림 3-6] LDA로 추출된 토픽에서의 TC 생성 예시 27
[그림 3-7] 토픽 분리 알고리즘 27
[그림 3-8] TC간 4가지 병합 조건 29
[그림 3-9] TC 병합 알고리즘 31
[그림 4-1] 형태소 분석 후 명사 리스트 예시 32
[그림 4-2] 추정된 LDA 파라미터 범위 34
[그림 4-3] 파라미터 별 Perplexity 값 35
[그림 4-4] 토픽 개수별 최소값 35
[그림 4-5] 추출된 각 토픽의 빈도 37
[그림 4-6] 토픽 "대한항공"에서의 단어 출현빈도 37
[그림 4-7] 병합 방법 1의 실험 결과 40
[그림 4-8] 병합 방법 2의 실험 결과 41
[그림 4-9] 병합 방법 3의 실험 결과 41
[그림 4-10] 병합 방법 4의 실험 결과 42
[그림 4-11] 네 가지제안방법의 성능 비교 42
[그림 4-12] 제안방법과 LDA의 토픽 단어 추출에 대한 정확도 비교 44
[그림 4-13] 제안방법과 LDA의 F-measure 비교 45
초록보기 더보기
토픽 모델은 문서 집합으로부터 토픽을 추출하는 모델이며 자연어 처리 등에 사용되고 있다. 대표적인 방법으로는 잠재 디리클레 할당과 단어 군집화 기반 토픽 추출방법이 있다. 그러나 이러한 방법의 문제점으로는 토픽 중복 문제와 토픽 혼재 문제가 있다. 토픽 중복 문제는 특정 토픽이 여러 개의 토픽으로 추출되는 문제이며, 토픽 혼재 문제는 추출된 하나의 토픽 내에 여러 토픽이 혼재되어 있는 문제이다.
이러한 문제를 해결하기 위하여 본 논문에서는 잠재 디리클레 할당을 기반으로 하여 단어 간 유사도를 이용하여 토픽을 보정하는 방법을 제안한다. 본 논문에서는 토픽 중복 문제 대해 강건한 잠재 디리클레 할당으로 토픽을 추출하고 단어 간 유사도를 이용하여 토픽 분리 및 토픽 병합의 단계를 거쳐 최종적으로 토픽을 추출한다. 실험 결과 제안 방법이 잠재 디리클레 할당 방법과 단어 군집화 기반 토픽 추출방법에 비해 토픽 중복 문제 및 토픽 혼재 문제에 대해 좋은 성능을 보였다.
원문구축 및 2018년 이후 자료는 524호에서 직접 열람하십시요.
도서위치안내: / 서가번호:
우편복사 목록담기를 완료하였습니다.
* 표시는 필수사항 입니다.
* 주의: 국회도서관 이용자 모두에게 공유서재로 서비스 됩니다.
저장 되었습니다.
로그인을 하시려면 아이디와 비밀번호를 입력해주세요. 모바일 간편 열람증으로 입실한 경우 회원가입을 해야합니다.
공용 PC이므로 한번 더 로그인 해 주시기 바랍니다.
아이디 또는 비밀번호를 확인해주세요