본문바로가기

자료 카테고리

검색결과

검색결과 (전체 1건)

검색결과제한

열기
논문명/저자명
웹 사이트 구조를 이용한 토픽 검색 연구 / 이지숙
발행사항
서울 : 연세대학교 대학원, 2007.8
청구기호
TM 025.524 ㅇ884ㅇ
형태사항
vii, 70 p. ; 26 cm
자료실
전자자료
제어번호
KDMT1200774232
주기사항
학위논문(석사) -- 연세대학교 대학원, 문헌정보학, 2007.8
원문
미리보기

목차보기더보기

표제지

목차

국문요약 9

1. 서론 12

1.1. 연구의 배경 및 목적 12

1.2. 연구의 범위 및 방법 13

2. 이론적 배경 15

2.1. 토픽 검색의 개념 15

2.1.1. 초기 연구에서의 토픽 검색 15

2.1.2. TREC 연구에서의 토픽 검색 17

2.2. 토픽 검색 접근 방법 20

2.2.1. 링크 구조 기반 토픽 검색 21

2.2.2. 사이트 구조 기반 토픽 검색 23

2.3. 주요 선행연구 26

3. 실험 및 결과 분석 32

3.1. 실험 설계 32

3.1.1. 실험 개요 32

3.1.2. 실험 문헌 집단 32

3.1.3. 웹 페이지 검색 과정 35

3.1.4. 토픽 검색 과정 38

3.1.5. 실험 결과 평가 척도 46

3.2. 실험 결과 및 평가 47

3.2.1. 웹페이지 검색 결과 47

3.2.2. 토픽 검색 결과 48

3.2.3. 토픽 검색 성능 평가 57

3.2.4/3.2.5. TREC 적합 페이지/사이트 URL과의 비교 분석 61

4. 결론 69

참고문헌 73

ABSTRACT 79

〈표 1〉 URL 유형의 예시 25

〈표 2〉 실험 문헌 집단(.GOV)의 특성 33

〈표 3〉 실험에 이용한 질의 집합 36

〈표 4〉 .GOV 색인 결과 37

〈표 5〉 엔트리 페이지 선정 규칙 42

〈표 6〉 유사도 계산을 위한 2×2 분할표 44

〈표 7〉 웹페이지 검색 결과 47

〈표 8〉 질의별 사이트 선정 결과 49

〈표 9〉 각 엔트리 페이지 선정 규칙이 적용된 사이트/하위 사이트의 수 50

〈표 10〉 하위 페이지 가중치(W(이미지참조)) 및 하위 사이트 가중치(W(이미지참조)) 값 50

〈표 11〉 유사도 가중치 모형(SW)의 토픽 검색 결과 52

〈표 12〉 고정 가중치 모형(FW)의 토픽 검색 결과 54

〈표 13〉 가중치 값의 변화에 따른 Q153의 성능 평가 56

〈표 14〉 가중치 값의 변화에 따른 적합 사이트/하위 사이트의 순위 56

〈표 15〉 TREC-2004 토픽 검색 결과 58

〈표 16〉 TREC-2004 상위 기관의 토픽 검색 방법 60

〈표 17〉 동일 사이트/하위 사이트의 적합 페이지 분석 63

〈표 18〉 적합문헌 리스트 수정 전후의 성능 평가 결과 66

〈그림 1〉 적합성 값 결합 알고리즘의 예(Zhang et al. 2003) 27

〈그림 2〉 웹 사이트 구조의 예시 31

〈그림 3〉 실험 과정 33

〈그림 4〉 실험 문헌의 예시 34

〈그림 5〉 토픽 검색 질의의 예시 35

〈그림 6〉 검색된 웹 사이트 구조의 예시 40

〈그림 7〉 P(10)으로 평가한 토픽 검색 결과 55

〈그림 8〉 TREC-2004 토픽 검색 결과와의 비교-P(10) 59

〈그림 9〉 토픽 검색 질의에 대한 적합문헌 리스트의 예시 62

〈그림 10〉 토픽 검색 결과 웹 페이지 URL 리스트의 예시(Q153) 68

초록보기 더보기

웹이 가진 정보의 양이 점차 증가하여 이용자에게 중요한 정보원이 되어감에 따라, 웹 정보로의 접근점을 제공하는 웹 검색 엔진은 더욱 필수적인 도구가 되었다. 웹 검색 엔진의 성능을 향상시키기 위한 연구가 계속되고 있으며, 웹 검색 과제의 하나로 토픽 검색이 연구되고 있다. 토픽 검색은 질의에 적합한 웹 사이트 및 하위 사이트를 검색하는 방법으로 이용자에게 신뢰성 있는 자원을 제공한다.

본 논문에서는 사이트 검색으로써의 토픽 검색에 초점을 맞추어, 질의에 적합한 사이트를 선정하는 토픽 검색 알고리즘을 제안하고 검색의 성능을 평가하였다. 실험을 위하여 TREC의 웹 실험 문헌 집단 .GOV와 TREC-2004의 질의 및 적합 문헌 집합을 이용하였다.

웹 페이지 검색은 전체 실험 문헌 집단을 대상으로 하여 수행하였으며 오카피 시스템의 BM25 함수를 이용하였다. 웹 페이지 검색 결과에서 토픽 검색 대상 사이트 및 하위 사이트, 각 사이트/하위 사이트의 엔트리 페이지를 선정하였다. 선정된 사이트/하위 사이트의 질의에 대한 토픽 점수를 계산하고, 이 점수에 따라 사이트/하위 사이트의 엔트리 페이지를 정렬하였다.

토픽 점수는 사이트의 적합성 점수와 인링크의 수를 이용한 링크 점수를 결합하여 산출하였다. 엔트리 페이지와 하위 페이지, 하위 사이트의 적합성 값을 결합하는 적합성 점수 공식에서 하위 페이지/하위 사이트의 가중치를 달리하는 다섯 가지 모형과 토픽 접수 공식에서 적합성 점수와 링크 점수의 반영 비율을 조절하는 두 가지 상수 값을 설정하여 가중치 및 상수 값의 변화에 따른 토픽 검색의 성능을 평가하였다. 성능 평가 척도로는 MAP와 P(10)을 이용하였다.

실험 결과 적합성 점수 계산 시 하위 페이지와 하위 사이트의 가중치 값을 높일 때 토픽 검색의 성능이 향상되었다. 고정 가중치 모형과 유사도 가중치 모형에서 각각 최고 0.217, 0.193의 P(10) 값을 가져, 하위 페이지의 영향력이 높게 반영된 고정 가중치 모형이 유사도 가중치 모형보다 우수한 성능을 보였다. 하위 사이트의 경우에도 하위 페이지의 경우와 같이 사이트의 적합성 점수에서 하위 사이트의 가중치가 높을수록 토픽 검색의 성능이 향상된 것으로 나타났다. 동일한 환경에서 하위 사이트의 가중치를 높였을 때 P(10)은 유사도 가중치 모형에서는 0.177에서 0.193로, 고정 가중치 모형에서는 0.210에서 0.217로 향상하였다. 사이트의 적합성 접수에서 하위 페이지/하위 사이트 적합성 점수가 중요하게 작용함을 알 수 있었고, 따라서 사이트의 계층 구조를 반영하여 질의에 대한 사이트의 적합성 정도를 평가하는 것이 토픽 검색에 적절한 전략임을 증명하였다.

사이트의 토픽 점수에서 링크 점수가 적합성 점수와 동일한 비율로 반영될 때 가장 좋은 성능을 보이는 것으로 나타났으며, 이를 통하여 인링크의 수를 토픽 검색에서 이용하는 것이 적절하다는 것을 확인하였다.

또한 실험 결과 토픽 점수를 구성하는 세 가지 값 즉 엔트리 페이지의 적합성 값과 하위 페이지/하위 사이트의 적합성 값, 링크 점수 모두가 검색 성능에 영향을 주었다. 이들 세 가지 값이 적절히 반영되어 토픽 점수를 구성되어야 토픽 검색의 성능이 향상될 수 있음을 알 수 있었다.

본 연구에서 제안한 토픽 검색 알고리즘의 성능을 TREC-2004의 토픽 검색 실험 결과와 비교하였다. TREC-2004에 참여한 18개 기관 중 P(10) 값이 높은 상위 7개 기관과의 성능을 비교한 결과 본 연구의 알고리즘은 0.217로, 상위 5위 수준의 우수한 성능을 갖는 것으로 나타났다. 그러나 MAP를 이용한 비교 평가에서는 TREC 실험에 비해 성능이 낮은 것으로 나타났는데 그 이유는 본 연구에서는 사이트를 단위로 하여 토픽 검색을 수행하였던 반면 TREC-2004의 토픽 검색의 적합문헌에는 페이지도 포함되었기 때문이다.

TREC-2004에서는 토픽 검색을 사이트 검색으로 정의하였기 때문에, TREC-2004 토픽 검색의 적합문헌 리스트를 그 정의와 비교하였다. 임의로 4개의 질의를 선택하여 이들의 적합문헌 리스트를 분석한 결과 TREC-2004의 적합문헌 선정에 있어 토픽 검색의 정의가 적용되지 않는 경우가 있음을 확인하였고, 분석 결과를 반영하여 적합문헌 리스트를 적합 사이트의 리스트로 수정하였다. 수정된 적합문헌 리스트를 이용하여 토픽 검색 알고리즘의 성능을 재평가하였을 때 토픽 검색의 성능이 MAP에서 97% P(10)에서 50% 향상하였다.

결론적으로 이 연구에서 제안한 토픽 검색 알고리즘이 우수한 성능을 보였으며 토픽 검색의 대상이 되는 사이트의 정의에 충실한 적합문헌 리스트가 제공된다면 그 성능이 더욱 높아질 것으로 기대된다.

권호기사보기

권호기사 목록 테이블로 기사명, 저자명, 페이지, 원문, 기사목차 순으로 되어있습니다.
기사명 저자명 페이지 원문 기사목차
연속간행물 팝업 열기 연속간행물 팝업 열기