본 연구는 머신러닝 분석기법을 이용하여 치료를 종료한 암 생존자를 대상으로 삶의 질 저하 고위험군 예측모형을 개발하기 위해 수행되었다.
연구대상자는 암 진단 당시 만 19세 이상의 성인으로 계획된 치료가 종료된 국내 5대 주요암 생존자로서, 인터넷 암 카페 및 환우회 등 5개 온라인 커뮤니티를 통해 본 연구의 목적을 충분히 이해하고 연구 참여에 동의한 1,005명이었다. 본 연구에서의 종속변수인 삶의 질은 European Organization for Research and Treatment of Cancer Quality of Life Questionnaire-Core 30의 하부영역인 전반적인 삶의 질 2문항으로 측정하였으며, 해당 점수가 60.4점 미만인 경우 삶의 질 저하 고위험군으로 정의하였다. 독립변수는 인구사회학적 특성, 질병 및 치료관련 특성, patient-reported outcomes (PROs)였다. 예측모형을 개발하기 위해 세 가지 머신러닝 분석기법(random forest, support vector machine, extreme gradient boosting)과 세 가지 딥러닝 분석기법을 활용하였다. 모형의 성능을 평가하기 위한 지표는 정확도, area under the curve (AUC), 정밀도, 재현율, F1 score를 사용하였다. 또한 변수 중요도를 확인하기 위해 SHapley Additive exPlanations (SHAP) 기법을 적용하였다.
본 연구결과, 1,005명의 대상자 중 고위험군으로 분류된 대상자는 654명(65.1%)이었고 이들의 삶의 질 평균 점수는 45.72±11.09점으로 나타났다. 여섯 가지 분석기법을 사용한 모형의 AUC는 모두 0.80 이상으로 나타나 삶의 질 저하 고위험군을 분류하는데 충분한 예측 능력이 있음을 보여주었다. Random forest의 정확도는 0.84로 여섯 개 모형 중 가장 높았고, F1 score 또한 0.89로 나타나 삶의 질 수준에 따라 고위험군이 적절히 분류되었음을 알 수 있었다. 변수 중요도는 random forest 모형에 SHAP 기법을 적용하여 분석을 시행하였고 PROs (예: 디스트레스, 통증, 피로 등)가 전반적인 모형 예측력에서 주요한 영향을 미친 변수로 나타났다.
본 연구는 삶의 질 저하가 예상되는 암 생존자 고위험군을 조기에 선별하고, 삶의 질 향상을 위한 맞춤형 전략 수립을 위한 기초자료가 될 수 있을 것이다. 또한 암 생존자 삶의 질 저하 고위험군 예측을 위한 디지털 플랫폼 개발에 활용될 수 있을 것이며, 이는 추후 의료전달체계 활성화 및 인력과 자원의 효율적 활용을 도모할 수 있다는 점에서 의의가 있다.