본 논문에서는 이종의 학술 문헌 사이트에서 제공하는 다수의 학술 문헌들의 동명이인 판별 기법을 제안한다. 제안하는 동명 이인 판별 기법은 규칙 기반 방법과 심층학습 기반 방법으로 이루어진다. 규칙 기반 방법은 수집한 문헌 데이터에서 동명이인 판별에 필요한 메타데이터를 이용하여 규칙을 생성하고 생성된 규칙에 따라 각 문서에 가중치를 부여한다. 심층학습 기반 방법은 각 학술 문헌의 속성 정보와 저자-학술 문헌, 공저자 구조 정보를 GCN에 입력하여 결과적으로 입력 정보에 대한 특징을 고려한 문서 특성 임베딩을 얻는다. 두 방법 모두 군집 분석 방법으로 동명이인을 판별한다. 제안하는 기법은 이종의 학술 문헌 사이트에서 수집한 메타데이터를 전처리하여 다중 분류기를 이용하여 규칙기반 방법과 심층학습 기반 방법 중에서 더 정확한 동명이인 판별 방법을 선택한다. 다양한 성능 평가를 통하여 제안하는 기법의 우수성을 입증한다. 성능 평가 결과 제안하는 기법의 정확도가 99% 이상으로 높은 성능을 보임을 확인할 수 있었다. 제안하는 기법은 실시간으로 서비스 중인 학술 문헌 사이트에서 동명이인 저자의 학술 문헌을 수집하고 문서 특성에 따라서 동명이인을 구분하여 연구자를 찾을 수 있을 것으로 기대된다.
In this paper, we propose a name disambiguation scheme of researchers with the same name based on heterogeneous academic data. The proposed scheme consists of a rule-based method and a deep learning-based method to discriminate researchers with the same name. The rule-based method creates rules by using the metadata necessary to determine the same name in the collected document data. A weight is assigned to each document according to the created rules. The deep learning-based method inputs attribute information, author-academic document, and co-author structure information from each academic document to GCN, resulting in document characteristic embeddings that take into account features for input information. Both methods determine the name disambiguation by clustering analysis. The proposed scheme preprocesses the metadata collected from heterogeneous academic document sites and selects one among the rule-based method and the deep learning-based method as a more accurate name disambiguation method using a multiclassifier. We conduct various performance evaluations to prove the excellence of the proposed scheme. As a result, it was shown that the accuracy of the proposed scheme was 99% or more. The proposed scheme is expected to collect the academic documents of authors with the same name from academic document sites in service in real time and find researchers by distinguishing them according to the document characteristics.