본문바로가기

자료 카테고리

전체 1
도서자료 0
학위논문 1
연속간행물·학술기사 0
멀티미디어 0
동영상 0
국회자료 0
특화자료 0

도서 앰블럼

전체 (0)
일반도서 (0)
E-BOOK (0)
고서 (0)
세미나자료 (0)
웹자료 (0)
전체 (1)
학위논문 (1)
전체 (0)
국내기사 (0)
국외기사 (0)
학술지·잡지 (0)
신문 (0)
전자저널 (0)
전체 (0)
오디오자료 (0)
전자매체 (0)
마이크로폼자료 (0)
지도/기타자료 (0)
전체 (0)
동영상자료 (0)
전체 (0)
외국법률번역DB (0)
국회회의록 (0)
국회의안정보 (0)
전체 (0)
표·그림DB (0)
지식공유 (0)

도서 앰블럼

전체 1
국내공공정책정보
국외공공정책정보
국회자료
전체 ()
정부기관 ()
지방자치단체 ()
공공기관 ()
싱크탱크 ()
국제기구 ()
전체 ()
정부기관 ()
의회기관 ()
싱크탱크 ()
국제기구 ()
전체 ()
국회의원정책자료 ()
입법기관자료 ()

검색결과

검색결과 (전체 1건)

검색결과제한

열기
논문명/저자명
지역별 토픽 추출을 위한 단어 군집화 방법 = (A)word clustering method for regional topic extraction / 노준호 인기도
발행사항
서울 : 숭실대학교 대학원, 2014.2
청구기호
TM 004 -14-113
형태사항
ix, 39 p. ; 26 cm
자료실
전자자료
제어번호
KDMT1201417057
주기사항
학위논문(석사) -- 숭실대학교 대학원, 컴퓨터학과, 2014.2. 지도교수: 이수원
원문

목차보기더보기

표제지

목차

국문초록 9

ABSTRACT 11

제1장 서론 13

1.1. 연구 배경 13

1.2. 논문의 구성 14

제2장 관련 연구 15

2.1. 토픽 추출 15

2.1.1. LDA(Latent Dirichlet Allocation) 15

2.1.2. Graph-based Word Clustering using a Web Search Engine 16

2.2. 단어 가중치 계산 방법 17

2.2.1. ICF-based 17

2.2.2. ECCD(Entropy based Category Coverage Difference) 18

제3장 지역별 토픽 추출 20

3.1. 텍스트 전처리 20

3.1.1. 명사 추출 모듈 21

3.1.2. 불용어 제거 모듈 22

3.2. 핵심어 추출 24

3.3. 시드 선정 25

3.4. 초기 군집화 26

3.5. 군집 병합 27

제4장 실험 및 결과 28

4.1. 데이터 수집 및 실험 방법 28

4.1.1. 데이터 수집 28

4.1.2. 실험 방법 29

4.2. 실험 결과 33

4.2.1. 단어 가중치 기법 선정 33

4.2.2. 초기 군집화를 위한 연관성 계산 기법 선정 36

4.2.3. 초기 군집화 및 군집 병합 파라미터 조정 39

4.2.4. 실험 결과 종합 46

제5장 결론 및 향후과제 48

참고문헌 49

[표 3-1] 명사 추출 모듈을 이용하여 뉴스기사로부터 추출된 명사목록 22

[표 3-2] 불용어 제거를 위한 불용어 사전의 일부 23

[표 3-3] 단어 wi가 지역 l에 대해 출현한 문서 수에 대한 교차표(이미지참조) 25

[표 4-1] 지역정보가 포함된 뉴스 데이터 설명 28

[표 4-2] 지역별 정답 토픽 30

[표 4-3] 개발 및 실험 환경 33

[표 4-4] 단어 가중치 계산 기법별 정답토픽 단어의 평균 순위 35

[표 4-5] 시드별 association 평균을 사용하였을 때의 평가 결과 37

[표 4-6] 전체 association 평균을 사용하였을 때의 평가 결과 38

[표 4-7] 시드별 PMI 평균을 사용하였을 때의 평가 결과 38

[표 4-8] 전체 PMI 평균을 사용하였을 때의 평가 결과 39

[표 4-9] 군집화 임계치를 α=0.0로 하였을 때의 평가 결과 40

[표 4-10] 군집화 임계치를 α=0.5로 하였을 때의 평가 결과 40

[표 4-11] 군집화 임계치를 α=1.0으로 하였을 때의 평가 결과 41

[표 4-12] 군집화 임계치를 α=1.5로 하였을 때의 평가 결과 41

[표 4-13] 군집화 임계치를 α=2.0으로 하였을 때의 평가 결과 42

[표 4-14] 군집화 임계치를 α=2.5로 하였을 때의 평가 결과 42

[표 4-15] 군집화 임계치를 α=3.0으로 하였을 때의 평가 결과 43

[표 4-16] 병합 임계치를 β=0.1로 하였을 때의 평가 결과 43

[표 4-17] 병합 임계치를 β=0.3로 하였을 때의 평가 결과 44

[표 4-18] 병합 임계치를 β=0.5로 하였을 때의 평가 결과 44

[표 4-19] 병합 임계치를 β=0.7로 하였을 때의 평가 결과 45

[표 4-20] 병합 임계치를 β=0.9로 하였을 때의 평가 결과 45

[표 4-21] 최적의 지역별 토픽을 추출하기 위한 단어 군집화 설정 47

[표 4-22] 최종 추출된 지역별 토픽 집합 47

[그림 2-1] LDA 계산과정 모식도 16

[그림 2-2] Graph-based Word Clustering 16

[그림 3-1] 지역별 토픽 추출 시스템 구조도 20

[그림 4-1] 지역별 인기 기사 29

[그림 4-2] 단어 가중치 계산 기법별 정답토픽 단어의 평균 순위 35

[그림 4-3] α와 β의 변화에 따른 추출된 토픽의 적합성 평가 결과 그래프 46

초록보기 더보기

 최근 사용자의 위치 정보를 활용하는 위치 기반 서비스가 대중화 되고 있다. 트위터와 페이스북은 사용자의 위치정보를 작성한 글에 기록하는 형태로 서비스를 제공하고 있다. 또한 국내 포털 업체인 다음은 제공하는 뉴스 기사를 조회한 사용자의 위치 정보를 토대로 지역별 인기 기사를 집계하는 서비스를 제공하고 있다. 이렇듯 다양한 형태의 위치 기반 서비스로부터 위치 정보를 포함한 데이터가 빠르게 생성되고 있다.

그 중 위치 정보가 포함된 텍스트 데이터는 지역별 사용자들이 표현한 관심사와 같은 특성을 내포하고 있으며 지역 간 비교를 통해 각 특성의 차이를 파악할 수 있다. 이러한 지역 간 특성의 차이는 기업의 지역 마케팅이나, 국가의 정책 수립과 같은 의사 결정에 도움이 될 수 있다.

본 연구에서는 지역별 토픽을 추출하기 위한 단어 군집화 방법을 제안한다. 제안 방법에서는 지역별 토픽 추출을 위하여 지역별 인기 뉴스 문서들을 수집한다. 수집된 지역별 인기 뉴스 문서 집합에서 지역별 문서 집합을 대표할 수 있는 단어인 핵심어를 추출하고, 핵심어 중 단어 군집화를 위한 시드를 선정한다. 핵심어와 시드가 결정되면 지역별 토픽 추출을 위한 단어 군집화를 수행한다. 우선 선정된 시드를 중심으로 함께 등장한 핵심어들과의 연관성을 기준으로 초기 군집들을 생성한다. 생성된 군집 중에는 유사한 내용의 군집이 있을 수 있기 때문에 유사 군집을 병합하는 과정을 거쳐 최종적으로 지역별 토픽을 추출한다. 또한, 본 연구에서는 지역별로 추출된 토픽의 적합성을 평가할 수 있는 새로운 평가기준을 제안하고, 최적의 지역별 토픽 추출을 위한 파라미터 조합을 실험을 통해 제시한다.

권호기사보기

권호기사 목록 테이블로 기사명, 저자명, 페이지, 원문, 기사목차 순으로 되어있습니다.
기사명 저자명 페이지 원문 기사목차
연속간행물 팝업 열기 연속간행물 팝업 열기