본문 바로가기 주메뉴 바로가기
국회도서관 홈으로 정보검색 소장정보 검색

목차보기

표제지

목차

제1장 서론 9

제1절 연구배경 및 목적 9

제2장 이론적 배경 13

제1절 범죄 정보 추출 방법론 13

제2절 범죄 정보 추출 대상과 범죄 구성요건 15

1. 범죄 구성요건 15

2. 양형 가중요소 및 감경요소 17

제3절 Transformer 기반 사전학습 언어모델 및 평가지표 19

1. Transformer 19

2. 모델 평가지표 28

제4절 법률 및 수사 분야의 정보 추출 관련 선행연구 분석 33

1. 해외 연구 34

2. 국내 연구 36

제3장 주요정보 추출 방안 39

제1절 주요정보 프레임 구축 39

1. 데이터 준비 39

2. 주요 정보 정의 41

제2절 사전학습 생성모델을 활용한 주요정보 데이터셋 구축 50

1. 프롬프트 구축 51

2. 성능평가 및 결과 분석 53

3. 최종 데이터셋 구축 57

제3절 주요정보 자동 추출 모델 실험 59

1. 기계독해 모델을 활용한 주요정보 추출 61

2. 텍스트 분류 모델을 활용한 주요정보 추출 64

제4장 결과 및 시사점 71

제1절 성능 비교 71

1. 베이스라인 성능 비교 71

2. 모델 성능 비교 74

3. 결과 분석 및 토의 77

제2절 모델의 범죄수사 활용 방안 및 추후 연구 80

참고문헌 81

국문초록 87

영문초록 88

부록 90

표목차

표 1. 법률 및 수사 기준 기반 주요정보 분류 18

표 2. NSP 라벨링 예시 23

표 3. 주요정보 추츨 문제의 루지스코어 적용 예시 30

표 4. 오차행렬 31

표 5. 주요정보 추츨 문제의 오차행렬 적용 예시 32

표 6. 법률 및 수사 도메인에서의 정보 추출 연구 33

표 7. CUAD를 구성하는 주요정보 예시 34

표 8. 범죄수사 도메인을 위해 정의된 개체명 37

표 9. 수사 요소 및 양형 기준 기반 정의된 주요정보 38

표 10. '살인 범죄사실 주요정보 프레임' 기본정보 예시 43

표 11. '살인 범죄사실 주요정보 프레임' 범행 전 정보 예시 44

표 12. '살인 범죄사실 주요정보 프레임' 범행 중 정보 예시 47

표 13. Simple 프롬프트 52

표 14. One-shot 프롬프트 52

표 15. Few-shot 프롬프트 53

표 16. 프롬프트 성능 비교 54

표 17. 프롬프트 별 '범행동기' 예시 54

표 18. Few-shot Prompt 주요정보 별 성능 55

표 19. GPT-3.5 오추출 유형 및 예시 56

표 20. GPT-3.5 활용 효과 58

표 21. 기계독해 데이터셋 구성 62

표 22. 기계독해 훈련, 평가, 테스트 데이터셋 63

표 23. 토큰, 시퀀스 타입 주요정보 분리 64

표 24. NER 데이터셋 구성 66

표 25. 토큰 분류 데이터셋 개체명 통계 67

표 26. Sequence Classification 데이터셋 구성 68

표 27. 형태소 패턴 기반 구절 분리 예시 69

표 28. 시퀀스 분류 데이터셋 주요정보 통계 70

표 29. 베이스라인과 설계 모델의 성능 비교 73

표 30. 주요정보 별 기계독해와 텍스트 분류 모델 성능 비교 76

표 31. 오분류 유형 및 통계 78

표 32. 토큰 분류 모델 의 오분류 예시 79

표 33. 시퀀스 분류 모델의 오분류 예시 79

그림목차

그림 1. Transformer 구조 20

그림 2. BERT의 MLM 예시 22

그림 3. BERT 모델의 임베딩 예시 24

그림 4. BERT 모델의 학습 구조 24

그림 5. ELECTRA 학습 과정 27

그림 6. ELECTRA 모델 성능 비교 27

그림 7. 원본 판결문의 범죄사실 부분 40

그림 8. 주요정보 프레임 구조 42

그림 9. GPT-3.5 활용 데이터셋 구축 절차 51

그림 10. Doccano 어노테이션 화면 58

그림 11. 주요정보 추출 실험 파이프라인 60

그림 12. 기계독해를 위한 PLM 기반 주요정보 추출 파이프라인 61

그림 13. Text Classification을 위한 PLM 기반 주요정보 추출 파이프라인 65

그림 14. 기계독해 모델 F1 스코어 변화 그래프 74

그림 15. 토큰 분류 모델 F1 스코어 변화 그래프 75

그림 16. 시퀀스 분류 모델 F1 스코어 변화 그래프 75

그림 17. 토큰 분류 모델의 예측 분포 77

그림 18. 시퀀스 분류 모델의 예측 분포 78

초록보기

 2021 년 한국 형사소송법의 개정으로 경찰의 수사주체로서의 역할이 강화되었고, 이에 따라 경찰에게 고도화된 수사 전문성이 요구되며, 개별 수사관들이 처리하는 사건 수의 증가로 수사 보고서 작성에 소요되는 시간도 증가하였다. 이러한 상황에서 수사관의 업무 효율성을 높이기 위한 인공지능 지원 시스템에 대한 필요성이 대두되었다. 이에 따라, 본 연구에서는 Transformer 기반의 사전학습 언어모델을 미세조정 학습시켜, 법률 문서에서 18 가지 주요 정보를 자동으로 추출하는 모델을 설계하였다. 이를 위해 본 연구에서는 "살인 범죄사실 주요정보 프레임"을 개발하였고, 사전학습 생성모델을 활용하여 범죄 수사 분야에 특화된 대량의 학습 데이터셋을 구축하였다. 본 연구에서 설계한 텍스트 분류 모델은 87.75%의 F1 스코어를 달성하며, 기계독해 모델보다 전반적으로 높은 성능을 보였다. 또한, 텍스트 분류 모델이 예측한 상위 3 개의 답변 중 정답이 포함되는 비율은 98% 이상으로, 높은 적중율을 보였다. 이와 같은 결과는 텍스트 분류 모델이 복잡한 법률 및 수사 문서로부터 주요정보를 효율적으로 추출하는데 있어 중대한 역할을 할 수 있음을 나타내며, 본 연구 결과를 토대로 수사결과보고서 작성 뿐만 아니라 유사 판례 검색, 사건 타임라인 구축 등 법률 및 수사 분야의 여러 응용 태스크에서 본 모델의 활용 가능성을 제시한다. 이는 수사 과정의 효율성과 공정성 향상에 기여할 수 있는 중요한 발견으로, 법률 및 수사 도메인의 기술 발전에 상당한 기여를 할 것으로 기대된다.