지역별 토픽 추출을 위한 단어 군집화 방법 = (A)word clustering method for regional topic extraction / 노준호

인명/단체명 검색결과
전체 선택	대표형(전거형, Authority)	생물정보	이형(異形, Variant)	소속	직위	직업	활동분야	주기	서지
연구/단체명을 입력해주세요.

소장자료
공공정책정보
외부기관 자료

학위논문 지역별 토픽 추출을 위한 단어 군집화 방법 = (A)word clustering method for regional topic extraction

저자명
노준호
발행사항
서울 : 숭실대학교 대학원, 2014.2
청구기호
TM 004 -14-113
형태사항
ix, 39 p. ; 26 cm
자료실 전자자료
제어번호
KDMT1201417057
주기사항
학위논문(석사) -- 숭실대학교 대학원, 컴퓨터학과, 2014.2. 지도교수: 이수원
연계정보
원문
외부기관 원문

목차보기

표제지

국문초록 9

ABSTRACT 11

제1장 서론 13

1.1. 연구 배경 13

1.2. 논문의 구성 14

제2장 관련 연구 15

2.1. 토픽 추출 15

2.1.1. LDA(Latent Dirichlet Allocation) 15

2.1.2. Graph-based Word Clustering using a Web Search Engine 16

2.2. 단어 가중치 계산 방법 17

2.2.1. ICF-based 17

2.2.2. ECCD(Entropy based Category Coverage Difference) 18

제3장 지역별 토픽 추출 20

3.1. 텍스트 전처리 20

3.1.1. 명사 추출 모듈 21

3.1.2. 불용어 제거 모듈 22

3.2. 핵심어 추출 24

3.3. 시드 선정 25

3.4. 초기 군집화 26

3.5. 군집 병합 27

제4장 실험 및 결과 28

4.1. 데이터 수집 및 실험 방법 28

4.1.1. 데이터 수집 28

4.1.2. 실험 방법 29

4.2. 실험 결과 33

4.2.1. 단어 가중치 기법 선정 33

4.2.2. 초기 군집화를 위한 연관성 계산 기법 선정 36

4.2.3. 초기 군집화 및 군집 병합 파라미터 조정 39

4.2.4. 실험 결과 종합 46

제5장 결론 및 향후과제 48

참고문헌 49

표목차

[표 3-1] 명사 추출 모듈을 이용하여 뉴스기사로부터 추출된 명사목록 22

[표 3-2] 불용어 제거를 위한 불용어 사전의 일부 23

[표 3-3] 단어 wi가 지역 l에 대해 출현한 문서 수에 대한 교차표(이미지참조) 25

[표 4-1] 지역정보가 포함된 뉴스 데이터 설명 28

[표 4-2] 지역별 정답 토픽 30

[표 4-3] 개발 및 실험 환경 33

[표 4-4] 단어 가중치 계산 기법별 정답토픽 단어의 평균 순위 35

[표 4-5] 시드별 association 평균을 사용하였을 때의 평가 결과 37

[표 4-6] 전체 association 평균을 사용하였을 때의 평가 결과 38

[표 4-7] 시드별 PMI 평균을 사용하였을 때의 평가 결과 38

[표 4-8] 전체 PMI 평균을 사용하였을 때의 평가 결과 39

[표 4-9] 군집화 임계치를 α＝0.0로 하였을 때의 평가 결과 40

[표 4-10] 군집화 임계치를 α＝0.5로 하였을 때의 평가 결과 40

[표 4-11] 군집화 임계치를 α＝1.0으로 하였을 때의 평가 결과 41

[표 4-12] 군집화 임계치를 α＝1.5로 하였을 때의 평가 결과 41

[표 4-13] 군집화 임계치를 α＝2.0으로 하였을 때의 평가 결과 42

[표 4-14] 군집화 임계치를 α＝2.5로 하였을 때의 평가 결과 42

[표 4-15] 군집화 임계치를 α＝3.0으로 하였을 때의 평가 결과 43

[표 4-16] 병합 임계치를 β＝0.1로 하였을 때의 평가 결과 43

[표 4-17] 병합 임계치를 β＝0.3로 하였을 때의 평가 결과 44

[표 4-18] 병합 임계치를 β＝0.5로 하였을 때의 평가 결과 44

[표 4-19] 병합 임계치를 β＝0.7로 하였을 때의 평가 결과 45

[표 4-20] 병합 임계치를 β＝0.9로 하였을 때의 평가 결과 45

[표 4-21] 최적의 지역별 토픽을 추출하기 위한 단어 군집화 설정 47

[표 4-22] 최종 추출된 지역별 토픽 집합 47

그림목차

[그림 2-1] LDA 계산과정 모식도 16

[그림 2-2] Graph-based Word Clustering 16

[그림 3-1] 지역별 토픽 추출 시스템 구조도 20

[그림 4-1] 지역별 인기 기사 29

[그림 4-2] 단어 가중치 계산 기법별 정답토픽 단어의 평균 순위 35

[그림 4-3] α와 β의 변화에 따른 추출된 토픽의 적합성 평가 결과 그래프 46

초록보기

최근 사용자의 위치 정보를 활용하는 위치 기반 서비스가 대중화 되고 있다. 트위터와 페이스북은 사용자의 위치정보를 작성한 글에 기록하는 형태로 서비스를 제공하고 있다. 또한 국내 포털 업체인 다음은 제공하는 뉴스 기사를 조회한 사용자의 위치 정보를 토대로 지역별 인기 기사를 집계하는 서비스를 제공하고 있다. 이렇듯 다양한 형태의 위치 기반 서비스로부터 위치 정보를 포함한 데이터가 빠르게 생성되고 있다.

그 중 위치 정보가 포함된 텍스트 데이터는 지역별 사용자들이 표현한 관심사와 같은 특성을 내포하고 있으며 지역 간 비교를 통해 각 특성의 차이를 파악할 수 있다. 이러한 지역 간 특성의 차이는 기업의 지역 마케팅이나, 국가의 정책 수립과 같은 의사 결정에 도움이 될 수 있다.

본 연구에서는 지역별 토픽을 추출하기 위한 단어 군집화 방법을 제안한다. 제안 방법에서는 지역별 토픽 추출을 위하여 지역별 인기 뉴스 문서들을 수집한다. 수집된 지역별 인기 뉴스 문서 집합에서 지역별 문서 집합을 대표할 수 있는 단어인 핵심어를 추출하고, 핵심어 중 단어 군집화를 위한 시드를 선정한다. 핵심어와 시드가 결정되면 지역별 토픽 추출을 위한 단어 군집화를 수행한다. 우선 선정된 시드를 중심으로 함께 등장한 핵심어들과의 연관성을 기준으로 초기 군집들을 생성한다. 생성된 군집 중에는 유사한 내용의 군집이 있을 수 있기 때문에 유사 군집을 병합하는 과정을 거쳐 최종적으로 지역별 토픽을 추출한다. 또한, 본 연구에서는 지역별로 추출된 토픽의 적합성을 평가할 수 있는 새로운 평가기준을 제안하고, 최적의 지역별 토픽 추출을 위한 파라미터 조합을 실험을 통해 제시한다.

자료명
저자사항
제어번호
*요청자 이름	회신요청
*전화번호	휴대폰 번호를 입력하세요.
*이메일	@
*요청내용
*오류항목

* 서재명
설명
* 공개수준	비공개 완전공개 * 주의: 국회도서관 이용자 모두에게 공유서재로 서비스 됩니다.

알림톡 발송로 자료명, 기사명/저자명, 수록지명, 자료실, 서가번호, 전화번호로 구성되어 있습니다.




전화번호

연속간행물 상세정보 입니다.
청구기호
자료명/저자사항
발행사항
형태사항
ISSN

다국어입력

상세검색

다국어입력

저자 검색

관련 키워드 검색

주제별 검색

학위논문 지역별 토픽 추출을 위한 단어 군집화 방법 = (A)word clustering method for regional topic extraction

목차보기

초록보기

추천서가 (다양한 추천 자료를 만나보세요)

MARC 보기

오류 데이터 정정요청

알림톡 발송

권호기사보기

연속간행물 권호 선택

연속간행물 권호 선택

우편복사 안내

도서위치안내(서울관)

저자프로필

목차보기

우편복사 안내

우편복사 목록담기

확인

내서재에 담기

새로운 서재

저장

로그인