초록

다양한 종류의 데이터가 대량으로 생성되는 시대에 들어서며 데이터 분석에 대한 관심도가 올라가고 있다. 데이터는 표현되는 방식에 따라 배열 데이터, 시퀀스 데이터, 그래프 데이터 등으로 나뉘는데 이러한 데이터들은 구조에 따라 다른 특성을 가지고 있다. 이러한 고유의 특성을 지키기 위해서는 각각의 형식에 맞는 방식이 요구된다. 따라서 본 논문에서 이러한 데이터 중 그래프 데이터에 대한 분석 기법을 제안한다. 빈발 부분 그래프 탐색은 주어진 그래프들 내에 빈번히 나타나는 부분 그래프들을 찾는 문제이다. 대부분의 빈발 부분 그래프 탐색 알고리즘은 일정 밥법으로 후보 부분 그래프들을 생성하고, 생성된 후보 부분 그래프가 각 그래프 내에 포함되어 있는지 확인하여 빈도수를 세는 과정을 포함한다. 하지만 어떤 그래프가 다른 그래프 내에 포함되어 있는지 확인하는 작업은 NP-Complete 로서 비용이 매우 큰 연산이다. 본 논문은 생성된 후보 부분 그래프가 각 그래프에 포함되어 있는지를 빠르게 확인하는 빈발 부분 그래프 탐색 기법을 제안한다. 제안 방법은 각 그래프에 대해 크기가 K 이하인 그의 부분 그래프들의 임베딩 벡터들을 사전에 구하여 저장해 놓는다. 부분 그래프들은 임베딩 벡터로 변환되면서 각자 인덱스를 부여 받는다. 부여된 인덱스는 같은 구조를 가진 임베딩 벡터인 경우 동일한 값을 가진다. 이후 각 그래프는 가지고 있던 부분 그래프의 임베딩 벡터 대신, 사전 작업에서 구해진 모든 인덱스에 대한 보유 유무를 요약한 벡터를 갖는다. 어떤 후보 부분 그래프가 어떤 그래프에 포함되어 있는지를 확인할 때는 해당 후보 부분 그래프를 임베딩 벡터로 변환한 뒤, 그와 동일한 임베딩 벡터의 인덱스가 해당 그래프의 요약 벡터에 존재하는지를 확인한다. 따라서 부분 그래프 동형(subgraph isomorphism) 문제가 단순 벡터 매칭 문제로 변환됨으로써 빈발 부분 그래프 탐색 속도가 크게 향상된다. 실데이터를 사용한 실험 결과, 제안 방법은 기존 방법과 비교하여 빈발 부분 그래프 탐색 시간을 효율적으로 감소시킴을 확인하였다.