4차 산업 혁명의 도래로 인공지능 기술이 발전하였고, 처리해야 할 데이터가 기하급수적으로 늘었다. 많은 데이터를 단시간에 처리하기 위해 효율적인 검색을 필요로 한다. 이는 대량의 법률 문서를 대상으로 진행되는 리걸테크 분야에서도 필요로 하고 있다. 리걸테크는 법률 분야에 기술을 적용시킨 분야로서 크게 검색, 분석, 작성과 관련된 서비스를 제공하고 있다. 특정 사건을 기준으로 유사한 사건을 검색하는 유사 사건 검색의 경우, 싱가포르나 호주 등 다양한 국가에서 연구되고 있으나 국내에서는 아직 미미한 수준이다. 이러한 판결문 검색에는 텍스트인 판결문 데이터를 기반으로 자연어 처리 (Natural Language Processing) 기술을 통해 텍스트 데이터를 수치화하여 자연어를 컴퓨터가 이해하고 분석할 수 있도록 한다. 현재, 유사 사건 검색의 경우, 민간에서 제공하는 서비스인 엘박스나 빅 케이스 등에서 제공하고 있으나, 해당 검색 엔진의 성능이 사용자가 요구하는 수준을 만족시키기는 어려워 보이며, 국내에서 진행된 다양한 연구에서도 법률 분야에서의 유사 사건의 의미를 명시하고 있지 않다.
본 연구에서는 형사 판결문을 대상으로 다양한 임베딩 모델과 유사도 측정 방안들을 활용하여 유사 사건 도출 실험을 진행하였다. 하지만, 다양한 모델을 이용했음에도 불구하고, 모델마다 도출하는 유사 사건이 다르다는 것을 확인할 수 있었다. 이에, 사람이 직접 개입하여, 기준 사건을 토대로 유사 사건 사이의 순위를 매겨 유사 사건 결과를 평가를 진행하였다. 하지만, 사람을 통해 유사사건을 평가하였으나, 여러 기준 사건 중 절반이 사람들의 과반수의 동의를 이끌어내지 못하는 것을 확인하였다. 이를 통해, 단순히 임베딩 모델을 기반으로 유사 사건 도출하는 것은 형사 판결문에 적합하지 않다는 것을 파악하였다. 따라서, 사람들이 유사 사건을 평가할 때 작성한 이유를 근거를 통계내 본 결과, 다양한 유사 사건 선별 기준 중 '동기'를 가장 많이 고려한다는 것을 알 수 있었다. 이후에는 유사 사건 도출을 위해 범죄 사실 내 서술된 동기를 기준으로 판결문을 분류하는 것을 목적으로 판결문 분류를 진행하였다. 이후, 해당 동기를 키워드와 문장으로 구성한 데이터셋을 구축하였다. 해당 데이터셋을 기반으로 머신러닝 계열인 Decision Tree, Random Forest, SVM 모델과 트랜스포머 계열인 KoBERT, KLUE/bert 모델을 학습하였다. 그 결과 키워드 기반 데이터셋으로 Random Forest, 문장 기반 데이터셋으로는 KLUE/bert의 성능이 가장 좋았다.