목차

표제지

목차

국문요약 9

제1장 서론 11

제2장 관련연구 13

2.1. 데이터 전처리 기법 14

2.1.1. IQR 알고리즘 14

2.1.2. SMOTE 16

2.2. 머신러닝 분류 모델 19

2.2.1. 랜덤 포레스트 19

2.2.2. 아다부스트 20

2.2.3. LightGBM 23

제3장 당뇨예측을 위한 데이터 전처리 방법 25

3.1. 결측치 대체 27

3.2. 이상치 제거 27

3.2.1. IQR알고리즘의 이상치 제거 27

3.2.2. IQR알고리즘의 사분범위 조정 31

3.3. 클래스 불균형 36

제4장 실험 결과 및 고찰 37

4.1. 데이터베이스 37

4.2. 성능평가 38

4.2.1. K-Fold 교차검증 기법 38

4.2.2. 혼돈 행렬 40

4.2.3. ROC Curve 42

4.3. 실험결과 45

제5장 결론 47

참고 문헌 48

Abstract 51

표 3.1. 특징에 대한 결측치 대체 중간값 27

표 3.2. 훈련 데이터와 평가 데이터의 크기 36

표 3.3. SMOTE기법이 적용된 데이터의 크기 변화 36

표 4.1. 피마 인디언 당뇨 데이터베이스 37

표 4.2. 피마 인디언 당뇨 데이터베이스의 결측치 수 38

표 4.3. 혼돈 행렬 40

표 4.4. 제안된 전처리 방법 및 기존 연구의 분류 평가지표 46

그림 2.1. 의료 정형데이터 문제점의 예 13

그림 2.2. IQR알고리즘의 이상치 탐지 원리 16

그림 2.3. SMOTE 기법의 데이터 오버샘플링 과정 18

그림 2.4. 랜덤 포레스트의 학습과정 20

그림 2.5. 균형중심 방식과 리프중심 방식 24

그림 3.1. 조정된 IQR알고리즘이 포함된 당뇨예측 시스템 흐름도 25

그림 3.2. IQR알고리즘이 적용된 당뇨병 데이터의 분포도 28

그림 3.3. 정상인 데이터의 분포도 30

그림 3.4. 사분범위가 조정된 IQR알고리즘을 적용한 분포도 35

그림 4.1. K-Fold 교차검증기법의 진행과정 39

그림 4.2. 제안한 전처리 기법을 적용한 ROC Curve 44