생몰정보
소속
직위
직업
활동분야
주기
서지
국회도서관 서비스 이용에 대한 안내를 해드립니다.
검색결과 (전체 1건)
원문 있는 자료 (1) 열기
원문 아이콘이 없는 경우 국회도서관 방문 시 책자로 이용 가능
목차보기더보기
표제지
목차
국문초록 9
ABSTRACT 11
제1장 서론 13
1.1. 연구 배경 13
1.2. 논문의 구성 14
제2장 관련 연구 15
2.1. 토픽 추출 15
2.1.1. LDA(Latent Dirichlet Allocation) 15
2.1.2. Graph-based Word Clustering using a Web Search Engine 16
2.2. 단어 가중치 계산 방법 17
2.2.1. ICF-based 17
2.2.2. ECCD(Entropy based Category Coverage Difference) 18
제3장 지역별 토픽 추출 20
3.1. 텍스트 전처리 20
3.1.1. 명사 추출 모듈 21
3.1.2. 불용어 제거 모듈 22
3.2. 핵심어 추출 24
3.3. 시드 선정 25
3.4. 초기 군집화 26
3.5. 군집 병합 27
제4장 실험 및 결과 28
4.1. 데이터 수집 및 실험 방법 28
4.1.1. 데이터 수집 28
4.1.2. 실험 방법 29
4.2. 실험 결과 33
4.2.1. 단어 가중치 기법 선정 33
4.2.2. 초기 군집화를 위한 연관성 계산 기법 선정 36
4.2.3. 초기 군집화 및 군집 병합 파라미터 조정 39
4.2.4. 실험 결과 종합 46
제5장 결론 및 향후과제 48
참고문헌 49
[표 3-1] 명사 추출 모듈을 이용하여 뉴스기사로부터 추출된 명사목록 22
[표 3-2] 불용어 제거를 위한 불용어 사전의 일부 23
[표 3-3] 단어 wi가 지역 l에 대해 출현한 문서 수에 대한 교차표(이미지참조) 25
[표 4-1] 지역정보가 포함된 뉴스 데이터 설명 28
[표 4-2] 지역별 정답 토픽 30
[표 4-3] 개발 및 실험 환경 33
[표 4-4] 단어 가중치 계산 기법별 정답토픽 단어의 평균 순위 35
[표 4-5] 시드별 association 평균을 사용하였을 때의 평가 결과 37
[표 4-6] 전체 association 평균을 사용하였을 때의 평가 결과 38
[표 4-7] 시드별 PMI 평균을 사용하였을 때의 평가 결과 38
[표 4-8] 전체 PMI 평균을 사용하였을 때의 평가 결과 39
[표 4-9] 군집화 임계치를 α=0.0로 하였을 때의 평가 결과 40
[표 4-10] 군집화 임계치를 α=0.5로 하였을 때의 평가 결과 40
[표 4-11] 군집화 임계치를 α=1.0으로 하였을 때의 평가 결과 41
[표 4-12] 군집화 임계치를 α=1.5로 하였을 때의 평가 결과 41
[표 4-13] 군집화 임계치를 α=2.0으로 하였을 때의 평가 결과 42
[표 4-14] 군집화 임계치를 α=2.5로 하였을 때의 평가 결과 42
[표 4-15] 군집화 임계치를 α=3.0으로 하였을 때의 평가 결과 43
[표 4-16] 병합 임계치를 β=0.1로 하였을 때의 평가 결과 43
[표 4-17] 병합 임계치를 β=0.3로 하였을 때의 평가 결과 44
[표 4-18] 병합 임계치를 β=0.5로 하였을 때의 평가 결과 44
[표 4-19] 병합 임계치를 β=0.7로 하였을 때의 평가 결과 45
[표 4-20] 병합 임계치를 β=0.9로 하였을 때의 평가 결과 45
[표 4-21] 최적의 지역별 토픽을 추출하기 위한 단어 군집화 설정 47
[표 4-22] 최종 추출된 지역별 토픽 집합 47
[그림 2-1] LDA 계산과정 모식도 16
[그림 2-2] Graph-based Word Clustering 16
[그림 3-1] 지역별 토픽 추출 시스템 구조도 20
[그림 4-1] 지역별 인기 기사 29
[그림 4-2] 단어 가중치 계산 기법별 정답토픽 단어의 평균 순위 35
[그림 4-3] α와 β의 변화에 따른 추출된 토픽의 적합성 평가 결과 그래프 46
초록보기 더보기
최근 사용자의 위치 정보를 활용하는 위치 기반 서비스가 대중화 되고 있다. 트위터와 페이스북은 사용자의 위치정보를 작성한 글에 기록하는 형태로 서비스를 제공하고 있다. 또한 국내 포털 업체인 다음은 제공하는 뉴스 기사를 조회한 사용자의 위치 정보를 토대로 지역별 인기 기사를 집계하는 서비스를 제공하고 있다. 이렇듯 다양한 형태의 위치 기반 서비스로부터 위치 정보를 포함한 데이터가 빠르게 생성되고 있다.
그 중 위치 정보가 포함된 텍스트 데이터는 지역별 사용자들이 표현한 관심사와 같은 특성을 내포하고 있으며 지역 간 비교를 통해 각 특성의 차이를 파악할 수 있다. 이러한 지역 간 특성의 차이는 기업의 지역 마케팅이나, 국가의 정책 수립과 같은 의사 결정에 도움이 될 수 있다.
본 연구에서는 지역별 토픽을 추출하기 위한 단어 군집화 방법을 제안한다. 제안 방법에서는 지역별 토픽 추출을 위하여 지역별 인기 뉴스 문서들을 수집한다. 수집된 지역별 인기 뉴스 문서 집합에서 지역별 문서 집합을 대표할 수 있는 단어인 핵심어를 추출하고, 핵심어 중 단어 군집화를 위한 시드를 선정한다. 핵심어와 시드가 결정되면 지역별 토픽 추출을 위한 단어 군집화를 수행한다. 우선 선정된 시드를 중심으로 함께 등장한 핵심어들과의 연관성을 기준으로 초기 군집들을 생성한다. 생성된 군집 중에는 유사한 내용의 군집이 있을 수 있기 때문에 유사 군집을 병합하는 과정을 거쳐 최종적으로 지역별 토픽을 추출한다. 또한, 본 연구에서는 지역별로 추출된 토픽의 적합성을 평가할 수 있는 새로운 평가기준을 제안하고, 최적의 지역별 토픽 추출을 위한 파라미터 조합을 실험을 통해 제시한다.
원문구축 및 2018년 이후 자료는 524호에서 직접 열람하십시요.
도서위치안내: / 서가번호:
우편복사 목록담기를 완료하였습니다.
* 표시는 필수사항 입니다.
* 주의: 국회도서관 이용자 모두에게 공유서재로 서비스 됩니다.
저장 되었습니다.
로그인을 하시려면 아이디와 비밀번호를 입력해주세요. 모바일 간편 열람증으로 입실한 경우 회원가입을 해야합니다.
공용 PC이므로 한번 더 로그인 해 주시기 바랍니다.
아이디 또는 비밀번호를 확인해주세요