표제지
목차
제1장 서론 9
제1절 연구배경 및 목적 9
제2장 이론적 배경 13
제1절 범죄 정보 추출 방법론 13
제2절 범죄 정보 추출 대상과 범죄 구성요건 15
1. 범죄 구성요건 15
2. 양형 가중요소 및 감경요소 17
제3절 Transformer 기반 사전학습 언어모델 및 평가지표 19
1. Transformer 19
2. 모델 평가지표 28
제4절 법률 및 수사 분야의 정보 추출 관련 선행연구 분석 33
1. 해외 연구 34
2. 국내 연구 36
제3장 주요정보 추출 방안 39
제1절 주요정보 프레임 구축 39
1. 데이터 준비 39
2. 주요 정보 정의 41
제2절 사전학습 생성모델을 활용한 주요정보 데이터셋 구축 50
1. 프롬프트 구축 51
2. 성능평가 및 결과 분석 53
3. 최종 데이터셋 구축 57
제3절 주요정보 자동 추출 모델 실험 59
1. 기계독해 모델을 활용한 주요정보 추출 61
2. 텍스트 분류 모델을 활용한 주요정보 추출 64
제4장 결과 및 시사점 71
제1절 성능 비교 71
1. 베이스라인 성능 비교 71
2. 모델 성능 비교 74
3. 결과 분석 및 토의 77
제2절 모델의 범죄수사 활용 방안 및 추후 연구 80
참고문헌 81
국문초록 87
영문초록 88
부록 90
표 1. 법률 및 수사 기준 기반 주요정보 분류 18
표 2. NSP 라벨링 예시 23
표 3. 주요정보 추츨 문제의 루지스코어 적용 예시 30
표 4. 오차행렬 31
표 5. 주요정보 추츨 문제의 오차행렬 적용 예시 32
표 6. 법률 및 수사 도메인에서의 정보 추출 연구 33
표 7. CUAD를 구성하는 주요정보 예시 34
표 8. 범죄수사 도메인을 위해 정의된 개체명 37
표 9. 수사 요소 및 양형 기준 기반 정의된 주요정보 38
표 10. '살인 범죄사실 주요정보 프레임' 기본정보 예시 43
표 11. '살인 범죄사실 주요정보 프레임' 범행 전 정보 예시 44
표 12. '살인 범죄사실 주요정보 프레임' 범행 중 정보 예시 47
표 13. Simple 프롬프트 52
표 14. One-shot 프롬프트 52
표 15. Few-shot 프롬프트 53
표 16. 프롬프트 성능 비교 54
표 17. 프롬프트 별 '범행동기' 예시 54
표 18. Few-shot Prompt 주요정보 별 성능 55
표 19. GPT-3.5 오추출 유형 및 예시 56
표 20. GPT-3.5 활용 효과 58
표 21. 기계독해 데이터셋 구성 62
표 22. 기계독해 훈련, 평가, 테스트 데이터셋 63
표 23. 토큰, 시퀀스 타입 주요정보 분리 64
표 24. NER 데이터셋 구성 66
표 25. 토큰 분류 데이터셋 개체명 통계 67
표 26. Sequence Classification 데이터셋 구성 68
표 27. 형태소 패턴 기반 구절 분리 예시 69
표 28. 시퀀스 분류 데이터셋 주요정보 통계 70
표 29. 베이스라인과 설계 모델의 성능 비교 73
표 30. 주요정보 별 기계독해와 텍스트 분류 모델 성능 비교 76
표 31. 오분류 유형 및 통계 78
표 32. 토큰 분류 모델 의 오분류 예시 79
표 33. 시퀀스 분류 모델의 오분류 예시 79
그림 1. Transformer 구조 20
그림 2. BERT의 MLM 예시 22
그림 3. BERT 모델의 임베딩 예시 24
그림 4. BERT 모델의 학습 구조 24
그림 5. ELECTRA 학습 과정 27
그림 6. ELECTRA 모델 성능 비교 27
그림 7. 원본 판결문의 범죄사실 부분 40
그림 8. 주요정보 프레임 구조 42
그림 9. GPT-3.5 활용 데이터셋 구축 절차 51
그림 10. Doccano 어노테이션 화면 58
그림 11. 주요정보 추출 실험 파이프라인 60
그림 12. 기계독해를 위한 PLM 기반 주요정보 추출 파이프라인 61
그림 13. Text Classification을 위한 PLM 기반 주요정보 추출 파이프라인 65
그림 14. 기계독해 모델 F1 스코어 변화 그래프 74
그림 15. 토큰 분류 모델 F1 스코어 변화 그래프 75
그림 16. 시퀀스 분류 모델 F1 스코어 변화 그래프 75
그림 17. 토큰 분류 모델의 예측 분포 77
그림 18. 시퀀스 분류 모델의 예측 분포 78