표제지
목차
국문초록 11
ABSTRACT 13
제1장 서론 15
1.1. 연구 목적 및 배경 15
1.2. 연구 필요성 및 구성 17
제2장 관련 연구 19
2.1. 의료 인과 파악 시스템 19
2.2. 자연어처리 기반의 의료 인과 추출 시스템 19
2.2.1. 의료 텍스트 데이터 21
2.2.2. 인과 추출 방법 22
2.2.3. 인과 지식 그래프 24
2.3. 자연어 처리 모델 25
2.3.1. BERT 26
2.3.2. 미세 조정(Fine-tuning) 27
2.3.3. BERT Variations 28
2.4. 액티브 러닝 30
제3장 연구 방법 36
3.1. 연구 프레임워크 36
3.2. 활용 데이터 수집 및 분석 도구 37
3.2.1. 활용 데이터 37
3.2.2. 분석 도구 41
제4장 연구 I : 의료 논문 인과 추출 43
4.1. 의료 논문 인과 추출 개요 43
4.1.1. 의료 인과 문장 추출 43
4.1.2. 의료 인과 단어 추출 48
4.1.3. 후처리 54
4.1.4. 인과 지식 그래프 55
4.2. 의료 논문 인과 추출 결과 56
4.2.1. 의료 인과 문장 추출 56
4.2.2. 의료 인과 단어 추출 58
4.3. 의료 논문 인과 추출 논의 63
제5장 연구 II : 액티브 러닝 66
5.1. 액티브 러닝 개요 66
5.2. 액티브 러닝 결과 69
5.3. 액티브 러닝 논의 80
제6장 결론 83
6.1. 연구 요약 83
6.2. 한계점 및 추후 연구 85
참고문헌 86
부록 99
[표 4-1] 인과 문장 분류 모델의 하이퍼 파라미터 46
[표 4-2] 혼동 행렬(Confusion Matrix) 47
[표 4-3] 데이터셋의 인과 토큰 구성 50
[표 4-4] 인과 문장 분류 모델의 하이퍼 파라미터 51
[표 4-5] 인과 토큰 추출을 위한 혼동 행렬 52
[표 4-6] 모델 별 인과 문장 예측 성능 비교 57
[표 4-7] 데이터 증강 시 인과 예측 성능 비교 표 58
[표 4-8] 추출된 COPD 인과 문장 일부 58
[표 4-9] 후처리 인과 추출 성능 비교 61
[표 5-1] MediCause 기반 액티브 러닝 모델의 하이퍼 파라미터 67
[표 5-2] MM 기반 액티브 러닝 모델의 하이퍼 파라미터 68
[표 5-3] 반복에 따른 MediCause 기반 액티브 러닝 알고리즘별 성능(F1-Score) 비교 73
[표 5-4] 반복에 따른 MediCause 기반 액티브 러닝 알고리즘별 성능(AUC) 비교 73
[표 5-5] 반복에 따른 MediCause 기반 액티브 러닝 알고리즘별 성능(정확도) 비교 73
[표 5-6] MediCause 훈련 데이터셋으로 학습된 액티브 러닝의 PIR 값 74
[표 5-7] 반복에 따른 MM 기반 액티브 러닝 알고리즘별 성능(F1-Score) 비교 77
[표 5-8] 반복에 따른 MM 기반 액티브 러닝 알고리즘별 성능(AUC) 비교 77
[표 5-9] 반복에 따른 MM 기반 액티브 러닝 알고리즘별 성능(정확도) 비교 77
[표 5-10] MM 훈련 데이터셋으로 학습된 액티브 러닝의 PIR 값 78
[표 5-11] 액티브 러닝 기반으로 선별된 COPD 문장의 인과 예측 예시 79
[그림 2-1] 인과 토큰 분류 예시 24
[그림 2-2] 의료 인과 지식 그래프 예시 25
[그림 2-3] BERT 모델의 입력 형태 27
[그림 2-4] 사전학습된 BERT 모델의 미세조정 28
[그림 2-5] 의료 정보를 포함하는 BERT의 사전학습 예시 30
[그림 3-1] 연구 프레임워크 36
[그림 3-2] SemEval 2010 Task 8 훈련 데이터셋의 일부 39
[그림 3-3] MediCause 데이터셋의 구성 예시 40
[그림 3-4] MimiCause 훈련 데이터셋의 일부 40
[그림 3-5] COPD 논문 검색 예시 41
[그림 4-1] COPD 데이터셋 구성 과정 44
[그림 4-2] 인과 단어 추출 모델의 미세 조정을 위한 데이터셋 구성 50
[그림 4-3] ROC 곡선 예시 53
[그림 4-4] 인과 추출 방식에 따른 인과 추출 예시 54
[그림 4-5] 구문 관계를 고려하여 추출 가능한 인과 절 예시 55
[그림 4-6] 데이터 증강 시 인과 예측 성능 비교 그림 57
[그림 4-7] 모델 별 학습 데이터에 따른 인과 토큰 추출 성능 비교 59
[그림 4-8] 인과 추출 방식에 따른 인과 예측 성능 비교 60
[그림 4-9] COPD 인과 지식 그래프의 일부 63
[그림 5-1] MediCause 훈련 데이터셋 기반 액티브 러닝의 Iteration 별 F1-Score 71
[그림 5-2] MediCause 훈련 데이터셋 기반 액티브 러닝의 Iteration 별 AUC 71
[그림 5-3] MediCause 훈련 데이터셋 기반 액티브 러닝의 Iteration 별 정확도 72
[그림 5-4] MM 훈련 데이터셋 기반 액티브 러닝의 Iteration 별 F1-Score 75
[그림 5-5] MM 훈련 데이터셋 기반 액티브 러닝의 Iteration 별 AUC 75
[그림 5-6] MM 훈련 데이터셋 기반 액티브 러닝의 Iteration 별 정확도 76