표제지
목차
제1장 서론 13
제1절 연구배경 및 목적 13
제2장 이론적 배경 16
제1절 유사 사건 도출과 관련된 선행 연구 16
제2절 유사 사건 도출 기능을 제공하는 국내 판결문 검색 서비스 20
1. 종합법률정보 대국민 시스템 21
2. 판결서 인터넷열람 26
3. 엘박스(LBox) 28
4. 빅 케이스 29
제3절 검색 엔진의 적용 가능한 자연어 처리(NLP) 기술 30
1. 단어 표현(Word Representation) 32
2. 임베딩(Embedding) 34
3. 유사도 측정 방법 41
4. 문서 분류 모델 44
5. 분류 모델 성능 측정 방법 50
제3장 유사 사건 검색 기능의 실태 분석 및 형사 판결문을 기반으로 한 유사 사건 기준 도출 실험 52
제1절 판결서 열람 서비스 내 유사사건 검색 기능 실태 분석 53
1. 엘박스 53
2. 빅케이스 59
제2절 판결문 데이터 수집, 정제, 전처리 65
1. 데이터 선정 및 수집 65
2. 데이터 정제 66
3. 데이터 전처리 69
제3절 유사 사건 기준 수립을 위한 선행 연구 71
1. 유사 사건 기준 파악을 위한 실험 설계 및 결과 71
2. 작업자 평가 및 결과 74
제4절 의미론적(semantic) 유사 사건 도출에 대한 소결론 79
제4장 범행 동기를 기준으로 판결문 분류 데이터셋 구축 방법 80
제1절 동기의 중요성 및 연구 방법 80
제2절 범죄사실 내 동기 분류 기준 수립 83
1. 기존 연구에서 분류하는 동기의 기준 83
2. 범죄 사실 내 동기를 활용한 데이터 셋 구축 방안 85
3. 범죄 사실 내 동기를 포함하고 있는 문장 분리 기준 수립 85
4. 동기 포함 문장 내 분류 별 키워드 추출 기준 수립 89
5. 동기 분류 데이터셋 구축 97
제5장 동기 분류 데이터셋을 중심으로 한 분류 모델 구축 및 검증 101
제1절 동기 분류 모델 구축 방안 101
1. 베이스 라인 모델 설계 102
2. 전통적인 머신러닝 모델 설계 104
3. 트랜스포머 모델 설계 106
제2절 모델이 분류한 동기 데이터 평가 109
1. 데이터셋 1 내 검증 데이터를 통한 모델 평가 결과 109
2. 데이터셋 2 내 검증 데이터를 통한 모델 평가 결과 112
3. 데이터셋 3 내 검증 데이터를 통한 모델 평가 결과 114
4. 동기 분류 데이터셋을 통한 모델 검증의 소결론 117
제6장 결론 119
참고 문헌 121
요약 128
부록 132
부록 A. 범죄 사실 내 동기 패턴 예시 132
부록 B. 정신으로 분류되는 판결문의 동기 추출 방식 136
표 1. 외국 유사 사건 도출과 관련된 선행 연구 및 데이터셋 정리 17
표 2. 종합법률정보시스템에서 제공하는 판결문 종류 및 출처 22
표 3. 엘박스 기능 요약 28
표 4. GloVe에서 사용하는 동시등장확률의 예시 38
표 5. KLUE에서 제공하는 태스크 및 상세 설명과 각 사용된 데이터 49
표 6. 오차행렬(Confusion Matrix) 50
표 7. 엘박스 유사 사건 검색 기준 사건인 수원지방법원 안산지원 2016 고합 3의 범죄사실 요약 53
표 8. 유사 판례 검색 기능을 통해 비교 대상으로 선출된 사건 목록 55
표 9. 엘박스 유사 사건 검색 내 1 순위 사건인 부산지방법원 2011 고합 503 사건의 범죄사실 요약 55
표 10. 엘박스 유사 사건 검색 내 2 순위 사건인 춘천지방법원 2020 고합 154, 2021 전고 2 사건의 범죄사실 요약 56
표 11. 엘박스 유사 사건 검색 내 3 순위 사건인 의정부지방법원 2019 고합 347 사건의 범죄사실 요약 56
표 12. 엘박스를 통해 도출한 유사 사건 세부 내역 비교표 57
표 13. 빅케이스를 통해 도출한 유사 사건 60
표 14. 빅케이스로 도출된 유사 사건 1 위 대구지방법원 2013 고합 221 사건의 범죄사실 요약 60
표 15. 빅케이스로 도출된 유사 사건 2 위 수원지방법원 평택지원 2019 고합 167 사건의 범죄사실 요약 61
표 16. 빅케이스로 도출된 유사 사건 3 위 대구지방법원 포항지원 2013 고합 104 사건의 범죄사실 요약 62
표 17. 빅케이스를 통해 도출한 유사 사건 세부 내역 비교표 63
표 18. '판결서 인터넷열람사이트' 검색 조건에 적용한 세부내역 66
표 19. 형태소 분석기별 성능 비교표 69
표 20. 유사 사건 도출을 위한 기준 사건 목록 71
표 21. 기준 사건 1 번 (광주지방법원 목포지원 2016 고합 105)사건에 대한 모델들이 도출한 유사 사건 73
표 22. 기준 사건 2 번 (대전지방법원 서산지원 2012 고합 170) 에 대한 모델이 도출한 유사 사건 73
표 23. 기준 사건 3 번 (수원지방법원 안산지원 2019 고합 33) 에 대한 모델이 도출한 유사 사건 73
표 24. 기준 사건 4 번 (부산지방법원 2016 고합 736)에 대한 모델이 도출한 유사 사건 74
표 25. 작업자들이 평가한 유사 사건 도출 데이터셋 평가 76
표 26. 작업자들이 작성한 이유 범주화 결과 77
표 27. 유사 사건 기준 분류 차트 78
표 28. 범죄 사실 내 동기를 나타내는 패턴 및 정규 표현식 86
표 29. 데이터셋 1,2,3 내 세부 내역 97
표 30. 데이터셋 별 동기 분포 변화 98
표 31. 데이터셋 별 동기 분포 변화[내용없음] 10
표 32. 데이터셋 별로 동기 문장 글자 수 평균 98
표 33. 각 데이터셋 내 동기 분류 분포 비율 99
표 34. 데이터셋 별 학습 및 검증 데이터 크기와 분류 별 분포 102
표 35. KoBERT 모델 구축에 사용한 세부 파라 미터와 값 107
표 36. KLUE 모델 구축에 사용한 세부 파라미터와 값 108
표 37. 데이터셋별 가장 높은 정확도를 도출한 모델과 모델에 사용된 입력 데이터의 형태 109
표 38. 데이터셋 1을 통한 각 모델의 정확도 및 검증 데이터 내 맞춘 개수와 틀린 개수 110
표 39. 데이터셋 1 내 검증용 데이터 라벨에 따른 모델 별 F1 스코어 111
표 40. 데이터셋 2을 통한 각 모델의 정확도 및 검증 데이터 내 맞춘 개수와 틀린 개수 112
표 41. 데이터셋 2 내 검증용 데이터 라벨에 따른 모델 별 F1 스코어 113
표 42. 데이터셋 3을 통한 각 모델의 정확도 및 검증 데이터 내 맞춘 개수와 틀린 개수 114
표 43. 데이터셋 3 내 검증용 데이터 라벨에 따른 모델 별 F1 스코어 116
표 44. 중복으로 등장하는 키워드 개수 118
그림 1. 판결문이 개인에게 공개되는 과정 도식화 21
그림 2. 종합법률정보에서 제공하는 단순 검색 기능 23
그림 3. 종합법률정보 내 상세 검색 기능 24
그림 4. 종합법률정보 디렉토리 검색을 통해 형법 제 250조를 검색한 결과 25
그림 5. 판결서 인터넷 열람 사이트에서 제공하는 판결문 검색 기능 26
그림 6. 유사 사건 도출과 문서 분류를 위한 자연어 처리 흐름도 31
그림 7. 국소 표현과 분산 표현을 통해 구축한 각 문서별 벡터 예시 33
그림 8. Word2Vec에서 단어를 이용해 벡터를 생성 및 단어끼리 연산 방법 도식화 35
그림 9. Word2Vec의 학습 방식인 CBOW 방식과 Skip-gram 방식 도식화 36
그림 10. WMD에서 사용하는 문서 간 거리 측정 방안 도식화 37
그림 11. BERT의 사전 훈련(Pre-training)과 추가 학습(Fine-Tuning) 과정 도식화 40
그림 12. 두 벡터 사이의 각도로 보는 Cosine similarity 값 변화 42
그림 13. Cosine Similarity 와 Soft Cosine Similarity 비교 그래프 43
그림 14. Decision Tree 과정 도식화 45
그림 15. Random Forest 과정 도식화 46
그림 16. RANDOM FOREST 과정 도식화[내용없음] 11
그림 17. SVM 내 핵심 기능(Support Vector, Margin, hyperplane) 그래프 47
그림 18. BERT를 이용한 Label 분류 방법 도식화 48
그림 19. 엘박스 유사 판례 검색 기능 통해 도출한 결과 54
그림 20. Ai 유사판례 기능을 통해 도출한 유사 사건 화면 59
그림 21. 판결문 선정 및 수집부터 전처리까지의 흐름도 65
그림 22. 텍스트 형태의 판결문을 JSON 형태로 구조화한 예시 68
그림 23. 기준 사건을 중심으로 한 유사 사건 도출 데이터셋 구축 구조화 72
그림 24. 유사 사건 평가에 사용된 설문지 75
그림 25. 작업자들이 작성한 1 위 사건에 대한 이유 77
그림 26. 부산지방법원 2018 고합 511 범죄사실 내 관계, 동기, 도구 81
그림 27. 해당 논문에 맞춰 수정한 동기 분류 도출 방식 도식화 84
그림 28. 동기 분류 데이터셋 구축 흐름도 85
그림 29. 동기 분류 데이터셋 구축 흐름도[내용없음] 12
그림 30. 광주지방법원 목포지원 2020 고합 91 판결의 범죄사실 88
그림 31. 광주지방법원 목포지원 2012 고합 181 판결을 이용한 치정 키워드 추출 예시 90
그림 32. 서울중앙지방법원 2015 고합 856 판결을 이용한 정신 키워드 추출 예시 92
그림 33. 춘천지방법원 2013 고합 136 판결을 이용한 금품 키워드 추출 예시 94
그림 34. 청주지방법원 2018 고합 171 사건을 이용한 원한 키워드 추출 예시[내용없음] 12
그림 35. 청주지방법원 2018 고합 171 사건을 이용한 원한 키워드 추출 예시[내용없음] 12
그림 36. 청주지방법원 2018 고합 171 판결을 이용한 원한 키워드 추출 예시 96
그림 37. 베이스라인 모델 구축 도안[내용없음] 12
그림 38. 베이스라인 모델 구축 도안 103
그림 39. 머신러닝을 활용한 동기 분류 도식화 104
그림 40. 키워드 빈도수를 기반으로 생성한 사건별 벡터 105
그림 41. 트랜스포머 계열을 활용한 동기 분류 모델 작동 원리 106
그림 42. 동기 분류 데이터 셋 1 검증용 데이터를 기반으로 KLUE(bert-base) 모델이 도출한 오차행렬 111
그림 43. 동기 분류 데이터셋 2 검증용 데이터를 기반으로 Random Forest 모델이 도출한 오차행렬 113
그림 44. 동기 분류 데이터셋 3 검증용 데이터를 기반으로 Random Forest 모델이 도출한 오차행렬 116