최근 기술이 발전함에 따라 업무 환경이 모두 디지털화되어 업무 대부분에서 디지털 문서를 활용한다. 사건과 관련된 문서를 빠르게 선별해야 하는 디지털 포렌식 수사관들에게 수많은 디지털 문서들은 수사에 많은 어려움을 준다. 특히 전자증거개시제도(eDiscovery)에서는 한정된 시간 내에 많은 문서 및 파일 간의 연관성을 분석하여 의미 있는 디지털 증거를 찾는 것이 중요하다. 디지털 포렌식 수사 시 디지털 문서들의 양식을 식별하여 수많은 문서 중 비슷한 형태를 지닌 문서들을 선별한다면, 특정 조직에서 작성한 문서들만을 그룹화할 수 있다.
본 논문에서는 유사 문서 검색을 위해 문서의 페이지 수만큼 저장된 이미지 중에서 문서를 대표할 수 있는 이미지를 생성하는 방법과 대표 이미지 간의 유사도 분석을 위해 이미지 해시를 사용하여 유사한 문서를 검색하는 방법을 제시한다. Govdocs1 데이터 세트에 존재하는 약 5만 개의 Microsoft PowerPoint 파일과 NapierOne 데이터 세트에 존재하는 약 6천 개의 Microsoft PowerPoint 파일을 통해 본 논문에서 제시하는 방법에 대한 실용성을 보였다.