목적 : 생존 예측 모형에서 더 나은 예측은 질병과 같은 관심 사건의 빠른 진단을 통해 경제적 낭비와 환자의 고통을 감소시킬 수 있고 생존 가능성을 증가시킬 수 있는 중요한 과제이다. 실제 자료에서 비례위험 가정과 같은 가정을 따르는 경우는 많지 않다. 따라서 유연하게 사용 가능하고 예측 모형의 정확성이 뛰어난 기계학습 모형 9 가지를 고려하여 모의실험을 통해 다양한 생존 자료에서 종합적으로 예측 성능을 비교하고 생존 예측 모형에 대해 기존에 제안된 성능 평가 방법들을 비교 및 평가하고자 한다.
방법 : 생성된 모의실험 자료에 대해 콕스 비례위험 모형과 생존 기계학습 모형인 Cox proportional hazards deep neural network (DeepSurv) , Random survival forest , Survival gradient boosting decision tree (SurvXGBoost), Conditional inference forest time-varying (CIF-TV), Relative risk forest time-varying (RRF-TV) , Transformation forest time-varying (TSF-TV), 스태킹 앙상블(stacking ensemble) 모형을 적합하고 Time-dependent brier score, Kaplan-Meier based Time-dependent AUROC, Average positive predictive value based Time-dependent AUROC, c-index, Greenwood-Nam-D'Agostino Calibration 을 생존 예측 모형 평가 방법으로 고려하여 예측 성능을 비교한다. 그리고 이 5 가지 평가 방법들이 모형 예측 성능을 올바르게 평가하는지 비교 및 평가한다.
결과 : 위험의 변화와 중도절단율과 관계없이 콕스 비례위험 모형, Cox proportional hazards deep neural network (deepSurv) 모형이 거의 동일하게 우수한 성능을 나타냈다. 비례위험 가정이 어느정도 만족하지 않더라도 콕스 비례위험 모형의 성능이 떨어지지 않음을 보였다. 또, 여러 기계학습 모형들 중에는 Cox proportional hazards deep neural network (deepSurv) 모형의 성능이 가장 높았고, 그 다음으로 Transformation forest time-varying (TSF-TV) 모형의 성능이 높았다. 생존 예측 모형 성능 평가 방법에 대해서는 Time-dependent brier score 는 중도절단율이 높은 경우를 제외하고 올바르게 측정했다. Average positive predictive value based Time dependent AUROC, Kaplan-Meier based Time-dependent AUROC 는 위험이 급격하게 변하는 경우에서는 중도절단율과 관계없이 올바르게 성능을 평가했으나 위험의 변화가 일정한 경우와 위험의 변화가 정규분포와 비슷한 대칭인 경우에서는 각각 중도절단율이 높거나 낮은 경우에 성능 평가력이 떨어졌다. c-index 는 위험의 변화가 급격하게 변하는 경우에서는 중도절단율과 관계없이 올바르게 성능을 평가하나 위험의 변화가 일정한 경우에서는 중도절단율이 높은 경우 평가력이 떨어졌고 위험의 변화가 정규분포와 비슷한 대칭인 경우에서는 중도절단율에 관계없이 모두 값이 일정하게(monotone) 나타나 평가력이 떨어졌다. Greenwood-Nam-D'Agostino 검정 결과에 기반한 교정 측정 방법은 시나리오와 중도절단율에 관계없이 성능 평가력이 떨어졌다.
결론 : 복잡한 생존 자료에 대해 더 나은 예측 모형을 찾고자 한다는 가정하에, 기계학습모형인 Cox proportional hazards deep neural network (deepSurv), Transformation forest time-varying (TSF-TV) 모형을 사용하는 것을 제안하고 비례위험 가정이 어느정도 만족하지 않더라도 콕스 비례위험 모형을 함께 적합해볼 것을 제안한다. 그리고 생존 예측 모형의 성능 평가 방법으로 위험의 변화와 중도절단율에 따라 성능 평가력이 달라질 수 있기 때문에 Time-dependent brier score, Average positive predictive value based Time-dependent AUROC, Kaplan-Meier based Time-dependent AUROC, c-index 를 함께 비교하여 여러 관점에서 평가하는 것을 제안한다.