표제지
초록
Abstract
목차
1. 서론 12
1.1. 연구배경 12
1.2. 연구 목표 15
2. 건강보험청구자료 16
2.1. 건강보험청구자료란 16
2.2. 건강보험 청구자료의 특성 및 한계 17
2.3. 보건의료 분야에서의 건강보험 청구자료 활용 예시 19
2.4. 자료 설명 및 연구 설계 20
3. 모형 및 방법 24
3.1. 이론적 배경 24
3.1.1. Logistic Regression 24
3.1.2. LASSO Logistic Regression 26
3.1.3. SVM(Support Vector Machine) 27
3.1.4. Random Forest 28
3.1.5. XGBoost 30
3.1.6. GLMBoost 33
3.2. 모형 설계 34
3.2.1. LASSO Logistic Regression 34
3.2.2. SVM(Support Vector Machine) 34
3.2.3. 랜덤 포레스트(Random Forest) 35
3.2.4. XGBoost 36
3.2.5. GLMBoost 36
4. 연구결과 38
4.1. 평가 모형 38
4.1.1. 혼동행렬 38
4.1.2. ROC 곡선 및 AUC 40
4.2. 모형 결과 41
4.2.1. Logistic Regression 41
4.2.2. LASSO Logistic Regression 43
4.2.3. SVM 45
4.2.4. Random Forest 47
4.2.5. XGBoost 49
4.2.6. GLMBoost 51
4.3. 성능 비교 53
4.3.1. 방법별 혼동행렬 53
4.3.2. 방법별 ROC 곡선 56
5. 결론 57
6. 참고 문헌 58
Table 1. CDK4/6 정의 20
Table 2. 환자 선정 및 제외 기준 22
Table 3. 혼동행렬의 예시 38
Table 4. Logistic Regression 모형의 혼동행렬 41
Table 5. Logistic Regression 모형의 혼동행렬 평가 지표 41
Table 6. LASSO Logistic Regression 모형의 혼동행렬 43
Table 7. LASSO Logistic Regression 모형의 혼동행렬 평가 지표 43
Table 8. SVM 모형의 혼동행렬 45
Table 9. SVM 모형의 혼동행렬 평가지표 45
Table 10. Random Forest 모형의 혼동행렬 47
Table 11. Random Forest 모형의 혼동행렬 평가지표 47
Table 12. XGBoost 모형의 혼동행렬 49
Table 13. XGBoost 모형의 혼동행렬 평가지표 49
Table 14. GLMBoost 모형의 혼동행렬 51
Table 15. GLMBoost 모형의 혼동행렬 평가지표 51
Table 16. 방법별 혼동행렬 평가지표 값 1 53
Table 17. 방법별 혼동행렬 평가지표 값 2 54
Fig. 1. 연도별 여성 주요암 연령 표준화 발생률 추이 12
Fig. 2. 2022년 암종별 사망수 13
Fig. 3. 2022년 주요 암종별 사망률 13
Fig. 4. Study design 20
Fig. 5. 시그모이드 분포의 모습 25
Fig. 6. Support Vector Machine의 기본 예시 27
Fig. 7. Support Vector Machine의 초평면 28
Fig. 8. Random Forest의 예시 29
Fig. 9. XGBoost 작동 과정 31
Fig. 10. Logistic Regression 모형의 ROC curve 42
Fig. 11. LASSO Logistic Regression 모형의 ROC curve 44
Fig. 12. SVM 모형의 ROC curve 46
Fig. 13. Random Forest 모형의 ROC curve 48
Fig. 14. XGBoost 모형의 ROC curve 50
Fig. 15. GLMBoost 모형의 ROC curve 52
Fig. 16. 방법별 혼동행렬 평가지표 비교 55
Fig. 17. 방법별 ROC 곡선 AUC값 56