표제지
목차
제1장 서론 7
제1절 배경 연구 7
제2절 연구의 필요성 및 목적 8
제3절 연구내용 및 논문의 구성 9
제2장 관련 연구 10
제1절 웹 크롤러 10
1. 웹 크롤러 정의 10
2. 웹 크롤러 분류 12
3. 포커스 크롤러와 토픽 크롤러 14
제2절 아파치 카프카와 스파크 17
1. 아파치 카프카 17
2. 아파치 스파크 19
제3장 제안모델 20
제1절 R-WCMS 구조 20
제2절 R-WCMS 에이전트 23
1. R-WCMS 에이전트 구조 23
2. R-WCMS 에이전트 수집 서버 24
3. R-WCMS 에이전트 수집 엔진 26
제3절 R-WCMS 매니저 29
1. R-WCMS 매니저 구조 29
2. 웹 데이터 수집 실시간 예측 시스템 32
제4장 구현 및 평가 35
제1절 구현 환경 35
제2절 평가 및 분석 37
1. R-WCMS 에이전트 성능 분석 37
2. R-WCMS 매니저 성능 분석 38
3. R-WCMS 알고리즘 성능 분석 39
제5장 결론 41
참고문헌 42
국문초록 44
ABSTRACT 46
[표 3-1] 상품 이벤트 데이터 메시지 파라미터 33
[표 3-2] 수식 파라미터 34
[표 4-1] 플랫폼 구현 환경 35
[표 4-2] 초기 구성 시스템 사양 36
[표 4-3] 검증 전에 측정 한 디스크 성능과 네트워크 대역폭 36
[그림 1-1] 국내 데이터 솔루션 시장 점유율 7
[그림 2-1] 웹 크롤러 알고리즘 10
[그림 2-2] 웹 크롤러 구조 11
[그림 2-3] 웹 크롤러 종류 12
[그림 2-4] 포커스 크롤러 알고리즘 14
[그림 2-5] 토픽 크롤러 구조 15
[그림 2-6] 토픽 크롤러 알고리즘 16
[그림 2-7] 카프카의 분산 메시지 큐의 구조 17
[그림 3-1] R-WCMS 전체 구조 20
[그림 3-2] R-WCMS 서버 UI 21
[그림 3-3] 업데이트 데이터 시간 예측 UI 22
[그림 3-4] R-WCMS 에이전트 구조 23
[그림 3-5] 상품 목록 페이지 URL 패턴 24
[그림 3-6] 상품 상세 페이지 URL 패턴 24
[그림 3-7] R-WCMS 에이전트 수집 서버 흐름도 25
[그림 3-8] 수집 엔진 데이터 스트림 처리 과정 26
[그림 3-9] R-WCMS 매니저 메시지 전송 알고리즘 27
[그림 3-10] R-WCMS 매니저 전체 흐름 29
[그림 3-11] RDD 변환 처리 흐름 30
[그림 3-12] 하둡 클러스트 이벤트 메시지 저장 흐름도 31
[그림 3-13] 데이터의 세부 정보를 관리하는 알고리즘 32
[그림 4-1] R-WCMS 수집 엔진 메시지 저장 성능 평가 37
[그림 4-2] R-WCMS 매니저 저장 성능 평가 38
[그림 4-3] 업데이트 자료의 정확도 실험 결과 39
[그림 4-4] 업데이트 자료의 검색 시간 실험 결과 40