• 저자명 참조
  • 용어관계사전
  • 검색히스토리
  • 자동완성
  • 상세검색

    자료구분

  • 검색: 92 ms /
통합검색 (전체 0건)

추천

  • 논문명/저자명 지역별 토픽 추출을 위한 단어 군집화 방법 = (A)word clustering method for regional topic extraction / 노준호 이용률 높음
  • 발행사항 서울 : 숭실대학교 대학원, 2014.2
  • 청구기호 TM 004 -14-113
  • 형태사항 ix, 39 p. ; 26 cm
  • 자료실 석박사학위논문실(107호)
  • 제어번호 KDMT1201417057
  • 주기사항

    학위논문(석사) -- 숭실대학교 대학원, 컴퓨터학과, 2014.2. 지도교수: 이수원

  • 원문 원문보기 (음성지원) |다운로드
  • 미리보기
    • 원문이미지 1
    • 원문이미지 2
    • 원문이미지 3
    • 원문이미지 4
    • 원문이미지 5

목차보기

표제지

목차

국문초록 9

ABSTRACT 11

제1장 서론 13

1.1. 연구 배경 13

1.2. 논문의 구성 14

제2장 관련 연구 15

2.1. 토픽 추출 15

2.1.1. LDA(Latent Dirichlet Allocation) 15

2.1.2. Graph-based Word Clustering using a Web Search Engine 16

2.2. 단어 가중치 계산 방법 17

2.2.1. ICF-based 17

2.2.2. ECCD(Entropy based Category Coverage Difference) 18

제3장 지역별 토픽 추출 20

3.1. 텍스트 전처리 20

3.1.1. 명사 추출 모듈 21

3.1.2. 불용어 제거 모듈 22

3.2. 핵심어 추출 24

3.3. 시드 선정 25

3.4. 초기 군집화 26

3.5. 군집 병합 27

제4장 실험 및 결과 28

4.1. 데이터 수집 및 실험 방법 28

4.1.1. 데이터 수집 28

4.1.2. 실험 방법 29

4.2. 실험 결과 33

4.2.1. 단어 가중치 기법 선정 33

4.2.2. 초기 군집화를 위한 연관성 계산 기법 선정 36

4.2.3. 초기 군집화 및 군집 병합 파라미터 조정 39

4.2.4. 실험 결과 종합 46

제5장 결론 및 향후과제 48

참고문헌 49

[표 3-1] 명사 추출 모듈을 이용하여 뉴스기사로부터 추출된 명사목록 22

[표 3-2] 불용어 제거를 위한 불용어 사전의 일부 23

[표 3-3] 단어 wi가 지역 l에 대해 출현한 문서 수에 대한 교차표(이미지참조) 25

[표 4-1] 지역정보가 포함된 뉴스 데이터 설명 28

[표 4-2] 지역별 정답 토픽 30

[표 4-3] 개발 및 실험 환경 33

[표 4-4] 단어 가중치 계산 기법별 정답토픽 단어의 평균 순위 35

[표 4-5] 시드별 association 평균을 사용하였을 때의 평가 결과 37

[표 4-6] 전체 association 평균을 사용하였을 때의 평가 결과 38

[표 4-7] 시드별 PMI 평균을 사용하였을 때의 평가 결과 38

[표 4-8] 전체 PMI 평균을 사용하였을 때의 평가 결과 39

[표 4-9] 군집화 임계치를 α=0.0로 하였을 때의 평가 결과 40

[표 4-10] 군집화 임계치를 α=0.5로 하였을 때의 평가 결과 40

[표 4-11] 군집화 임계치를 α=1.0으로 하였을 때의 평가 결과 41

[표 4-12] 군집화 임계치를 α=1.5로 하였을 때의 평가 결과 41

[표 4-13] 군집화 임계치를 α=2.0으로 하였을 때의 평가 결과 42

[표 4-14] 군집화 임계치를 α=2.5로 하였을 때의 평가 결과 42

[표 4-15] 군집화 임계치를 α=3.0으로 하였을 때의 평가 결과 43

[표 4-16] 병합 임계치를 β=0.1로 하였을 때의 평가 결과 43

[표 4-17] 병합 임계치를 β=0.3로 하였을 때의 평가 결과 44

[표 4-18] 병합 임계치를 β=0.5로 하였을 때의 평가 결과 44

[표 4-19] 병합 임계치를 β=0.7로 하였을 때의 평가 결과 45

[표 4-20] 병합 임계치를 β=0.9로 하였을 때의 평가 결과 45

[표 4-21] 최적의 지역별 토픽을 추출하기 위한 단어 군집화 설정 47

[표 4-22] 최종 추출된 지역별 토픽 집합 47

[그림 2-1] LDA 계산과정 모식도 16

[그림 2-2] Graph-based Word Clustering 16

[그림 3-1] 지역별 토픽 추출 시스템 구조도 20

[그림 4-1] 지역별 인기 기사 29

[그림 4-2] 단어 가중치 계산 기법별 정답토픽 단어의 평균 순위 35

[그림 4-3] α와 β의 변화에 따른 추출된 토픽의 적합성 평가 결과 그래프 46

초록보기

 최근 사용자의 위치 정보를 활용하는 위치 기반 서비스가 대중화 되고 있다. 트위터와 페이스북은 사용자의 위치정보를 작성한 글에 기록하는 형태로 서비스를 제공하고 있다. 또한 국내 포털 업체인 다음은 제공하는 뉴스 기사를 조회한 사용자의 위치 정보를 토대로 지역별 인기 기사를 집계하는 서비스를 제공하고 있다. 이렇듯 다양한 형태의 위치 기반 서비스로부터 위치 정보를 포함한 데이터가 빠르게 생성되고 있다.

그 중 위치 정보가 포함된 텍스트 데이터는 지역별 사용자들이 표현한 관심사와 같은 특성을 내포하고 있으며 지역 간 비교를 통해 각 특성의 차이를 파악할 수 있다. 이러한 지역 간 특성의 차이는 기업의 지역 마케팅이나, 국가의 정책 수립과 같은 의사 결정에 도움이 될 수 있다.

본 연구에서는 지역별 토픽을 추출하기 위한 단어 군집화 방법을 제안한다. 제안 방법에서는 지역별 토픽 추출을 위하여 지역별 인기 뉴스 문서들을 수집한다. 수집된 지역별 인기 뉴스 문서 집합에서 지역별 문서 집합을 대표할 수 있는 단어인 핵심어를 추출하고, 핵심어 중 단어 군집화를 위한 시드를 선정한다. 핵심어와 시드가 결정되면 지역별 토픽 추출을 위한 단어 군집화를 수행한다. 우선 선정된 시드를 중심으로 함께 등장한 핵심어들과의 연관성을 기준으로 초기 군집들을 생성한다. 생성된 군집 중에는 유사한 내용의 군집이 있을 수 있기 때문에 유사 군집을 병합하는 과정을 거쳐 최종적으로 지역별 토픽을 추출한다. 또한, 본 연구에서는 지역별로 추출된 토픽의 적합성을 평가할 수 있는 새로운 평가기준을 제안하고, 최적의 지역별 토픽 추출을 위한 파라미터 조합을 실험을 통해 제시한다.

[{value=KDMT}]

  • 논문명/저자명 [TI] :지역별 토픽 추출을 위한 단어 군집화 방법 = (A)word clustering method for regional topic extraction / 노준호
  • 외부기관 원문 발행년도 [PublicationYear] :2014.2
  • 다운로드 가능여부 [DOWN] :Y
  • 발행사항 [PublicationStatement] :서울 : 숭실대학교 대학원, 2014.2
  • 청구기호 [CC] :TM 004 -14-113
  • 형태사항 [Form] :ix, 39 p. ; 26 cm
  • 자료실 [DataCenter] :석박사학위논문실(107호)
  • 외부기관 원문 [OuterISDB] :지역별 토픽 추출을 위한 단어 군집화 방법 = (A)word clustering method for regional topic extraction
  • UCI [UCI] :G901:A-0005803877
  • 표준번호/부호 [ISSN] :
  • 제어번호 [CN] :KDMT1201417057
  • 주기사항 [CycleMatter] :

    학위논문(석사) -- 숭실대학교 대학원, 컴퓨터학과, 2014.2. 지도교수: 이수원

  • 원문유무 [ISDB] :1
  • 배가코드 [SL] :ER,TR
  • 커버이미지 [COVER] :/thumb/KDMT/1201/4170/KDMT1201417057/
  • 목차 유형 [TOCPATH] :/data-db1-pdf/kdmt007/PDF/2014/1208/PDF1401-097/KDMT1201417057/KDMT1201417057.toc
  • 초록 유형 [ABSPATH] :/data-db1-abs/kdmt001/irm-abs/20141208-3/KDMT1201417057.txt
  • 해제 유형 [EXPPATH] :
  • 이용현황 [UsingStatus] :N
  • 동일저자자료 [SameAuth] :
  • 학위수여기관 [DegreeOrg] :숭실대학교 대학원
  • 학위년도 [DegreeYear] :2014.2
  • 학위 [Degree] :학위논문(석사) --
  • 참고문헌 [Academic] :0
  • 원문유형1 [WT1] :P
  • 원문유형2 [WT2] :
  • 음성지원 [TT1] :1
  • 인기도 [PPR] :35
  • 관련자료 [KRMLINK] :
  • 발행년 [PD1] :2014.2
  • 발행자 [Publisher] :숭실대학교 대학원
  • 닫기 이전 다음
    닫기
    이전 다음