본문 바로가기 주메뉴 바로가기
국회도서관 홈으로 정보검색 소장정보 검색

목차보기

Title Page

Contents

Abstract 11

Chapter 1. INTRODUCTION 13

1. Motivation 13

2. Contribution 20

3. Organization of the Dissertation 24

Chapter 2. Background 25

1. Electronic health record 25

2. Patient generated health data 27

3. Deep learning 29

Chapter 3. Influenza Screening via Deep Learning Using a Combination of Epidemiological and Patient- Generated Health Data: Development and Validation Study 32

1. Overview 32

2. Methods 33

2.1. Data collection 33

2.2. Data Preprocessing 35

2.3. Deep Learning Model and Training Hyperparameters 37

3. Results 38

4. Discussion 46

Chapter 4. Enhancing Machine Learning-based COVID-19 Screening Models with Epidemiological and Mobility Features, A retrospective model development 49

1. Overview 49

2. Methods 50

2.1. Study design 50

2.2. Data source 51

2.3. Models and training 56

3. Results 58

3.1. SHINE dataset characteristics 58

4. Discussion 65

Chapter 5. Deep-learning-based personalized prediction of absolute neutrophil count recovery and comparison with clinicians for validation. 69

1. Overview 69

2. Materials and Methods 70

2.1. Definition 70

2.2. Study design 70

2.3. Data collection 73

2.4. Data preprocessing 75

2.5. Model selection and description 75

2.6. Evaluation metric for model performance 76

2.7. Validation of the model by comparison with the clinicians' performance 77

2.8. Development and survey of the questionnaire 78

2.9. Statistical analysis 78

3. Results 79

3.1. Data statistics 79

3.2. Model performance 80

3.3. Validation of the model through comparison with clinicians' prediction result 82

3.4. Clinicians' change in prediction after looking at the models prediction 84

3.5. Questionnaire survey result analysis 84

4. Discussion 87

Chapter 6. Conclusion and Future work 91

1. Overview 91

2. Summary and results 91

3. Future work 93

4. Concluding remark 96

References 97

논문요약 116

List of Tables

Table 1. General characteristics of the data set. 39

Table 2. The effects of the removal of each variable from the analysis. "-〈Variable〉" means that the variable was singularly removed from the list of variables for the... 42

Table 3. Effect of each variable on the analysis. The baseline included body temperature, antipyretic drug, and antibiotic drug data. "+〈variable〉" means that the variable was... 44

Table 4. Comparison of COVID-19 testing results between the israeli and the SHINE datasets 59

Table 5. Comparison of Symptom Prevalence between the COVID-19 positive and negative groups. 60

Table 6. Model performance in predicting COVID-19 with the integration of secondary features. Each row represents the individual performance achieved by adding specific... 64

Table 7. Demographic information 79

Table 8. Prediction performance of our model and clinicians with inter-group comparison 81

List of Figures

Figure 1. Pipeline for data preprocessing. KCDC: Korea Center for Disease Control. 37

Figure 2. Receiver operating characteristic (ROC) curve illustrating the screening ability of the model. The red line shows a random guess, the blue line is the result of... 41

Figure 3. Screening performance versus the number of body temperature records. The y-axis shows the percentage of accuracy, and the x-axis refers to the number of body... 45

Figure 4. Symptom correlation in the SHINE dataset. The Spearman correlation coefficients are displayed in the grid. 61

Figure 5. Comparison of 7-day moving average values for confirmed cases and asymptomatic positive ratio in the SHINE dataset. 62

Figure 6. Feature importance by SHAP value in the Israeli dataset 63

Figure 7. Top ten important features, ranked by SHAP values, in the SHINE' dataset. National confirmed cases, global confirmed cases and national new deaths are... 65

Figure 8. Study overview. (a) Data collected from the Samsung Medical Center and filtered according to the inclusion and exclusion criteria. (b) According to the patient's... 73

Figure 9. Inclusion and exclusion criteria (A) Training dataset (B) Test dataset 74

Figure 10. Effect of the proposed chemotherapeutic agent data handling method. 82

Figure 11. Comparison of the predicted values and answers for the model and human expert. Statistical comparison of the percentage of correct answers according to error... 83

Figure 12. The 5-point Likert scale responses of groups of specialists and residents for each factor in the questionnaire (1=not at all agree, 5=totally agree). The number... 87

초록보기

 이 학위 논문은 헬스케어 분야에서 환자 생성 데이터 및 전자 의무 기록을 활용하는 딥러닝 예측 모델을 강화하는 방법에 대해 논의한다. 논문의 첫번째 목표는 환자 생성 데이터로부터 의료진의 판단에 도움이 될 수 있는 딥러닝 모델을 개발하고, 이를 공공 데이터 및 2차 데이터를 활용하여 강화하는 방법을 탐색하는 것이다. 두 번째 목표는 병원의 전자 의무 기록을 바탕으로 호중구 감소증 회복 예측 모델을 개발하고, 이 모델에 대한 의료진의 모델 수용도를 탐색하기 위해 일반적으로 사용되는 기술 수용 모델 기반 설문 이상의 방법을 탐색하는 것이다.

논문에 포함된 첫 번째 연구에서는 사용자가 직접 입력한 체온과 해열제 복용 기록, 증상을 기반으로 하여 인플루엔자의 스크리닝을 위한 딥 러닝 기반 모델을 개발했다. 이 모델은 1차 병원에서 자주 사용되는 신속 항원 검사의 민감도가 상대적으로 낮은 점을 보완하기 위해 개발되었으며, 약 80% 이상의 민감도를 보여 신속항원검사를 보완할 수 있을 것으로 기대된다.

두 번째 연구는 대상 질환을 COVID-19로 연구를 확장하여, 초기 팬데믹 단계에서의 제한된 PCR 테스트 능력을 보완하기 위해 스크리닝 모델을 개발하였다. 이 연구에서는 PGHD에 전염병 정보 및 개인 이동성 데이터와 같은 공공 데이터를 통합하여 딥러닝 모델의 성능을 크게 향상시켰다.

모델의 수용도를 탐색하는 방안으로, 우선 소아청소년 암 환자의 EHR 데이터를 활용하여, 중성구 감소증에서의 회복을 예측하는 딥 러닝 모델을 개발하였다. 이 모델은 전공의 보다 월등하고, 전문의와 비슷하거나 더 나은 예측 성능을 보였다. 또한 모델의 예측 결과를 의료진에게 전달하였을 때 의료진의 80%가 이를 수용하였으며, 그 결과 더 정확한 예측을 할 수 있음을 확인하였다.