표제지
초록
Abstract
목차
1. 서론 14
2. 관련 연구 16
3. 배경 지식 19
3.1. 데이터 세트 19
3.1.1. Govdocs1 19
3.1.2. NapierOne 19
3.2. 이미지 해시 20
3.2.1. ahash (Average Hash) 20
3.2.2. phash (Perceptual Hash) 21
3.2.3. dhash (Difference Hash) 21
3.2.4. whash (Wavelet Hash) 22
3.2.5. colorhash 22
4. 방법론 23
4.1. 문서 파일 페이지 추출 23
4.2. 문서 파일 대표 이미지 생성 24
4.3. 대표 이미지를 통한 유사 문서 검색 25
5. 적용 및 검증: Microsoft PowerPoint(PPT, PPTX) 파일을 활용한 검증 27
5.1. Microsoft PowerPoint 파일 페이지 추출 28
5.2. 대표 이미지 생성 결과 30
5.3. 유사 문서 검색 결과 31
5.4. 검증 결과 고찰 34
6. 대표 이미지 생성 방법에 따른 탐지율 비교 36
6.1. 전체 페이지 평균값 연산을 활용한 대표 이미지 생성 37
6.2. 일부 페이지 중간값 연산을 활용한 대표 이미지 생성 37
6.3. 일부 페이지 평균값 연산을 활용한 대표 이미지 생성 38
6.4. 비교 결과 고찰 38
7. 결론 및 향후 연구 40
참고문헌 42
표 1. 전체 페이지 평균값 연산을 활용한 탐지율 비교 37
표 2. 일부 페이지 중간값 연산을 활용한 탐지율 비교 37
표 3. 일부 페이지 평균값 연산을 활용한 탐지율 비교 38
표 4. 대표 이미지 생성 방법에 따른 탐지율 비교 38
그림 1. 문서 레이아웃 분석 결과 예시 17
그림 2. 상표 유사성 탐지 시스템에 의해 검색된 상표 예시 18
그림 3. 페이지 레이아웃 기반 유사 문서 검색 절차 23
그림 4. 0.875(87,5%) 유사한 두 파일의 phash 해밍 거리 측정 예시 26
그림 5. Microsoft PowerPoint 파일을 활용한 검증 절차도 27
그림 6. '880547.ppt' 파일 페이지 추출 결과 29
그림 7. '3575-pptx.pptx' 파일 페이지 추출 결과 29
그림 8. '880547.ppt' 파일의 대표 이미지 30
그림 9. '3575-pptx.pptx' 파일의 대표 이미지 31
그림 10. '880547.ppt' 파일과 0.875(87.5%) 이상 유사한 파일 32
그림 11. '880547.ppt' 파일과 0.925(92.5%) 이상 유사한 파일 32
그림 12. '3575-pptx.pptx' 파일과 0.875(87.5%) 이상 유사한 파일 33
그림 13. '3575-pptx.pptx' 파일과 0.85(85%) 이상 유사한 파일 33