초록

인공지능이나 4차 산업의 발달로 기술이 발전하면서 당뇨병을 포함한 다양한 질병의 조기진단 및 예측이 가능하게 되었다. 그러나 인공지능을 통한 진단 및 조기예측은 빅데이터나 AI학습 모델이 가진 문제점을 해결해야만 높은 성능을 보인다. 특히 의료정형데이터의 경우, 대표적으로 결측치, 이상치, 클래스 불균형과 같은 문제가 발생하며, 이는 편향되거나 성능을 저하시키는 결과를 초래한다.

본 논문에서는 의료 정형데이터가 갖는 결측치, 이상치, 클래스의 불균형 문제를 해결하였으며, 특히 이상치 문제는 기존의 IQR알고리즘이 가지고 있는 단점을 보완한 사분범위가 조정된 IQR알고리즘을 제안한다.

제안한 알고리즘의 이상치 탐지 기준은 기존의 IQR알고리즘을 통해 탐지된 이상치의 최빈값(mode)을 기준으로 하였다. 기존의 이상치 제거 기준선과 이상치의 최빈값을 비교하여 최빈값이 더 클 경우, 이상치 내에서 IQR알고리즘을 한 번 더 적용하여 최소한의 이상치를 제거하였다. 그 외에도 중간값 대체, SMOTE기법들을 활용하여 정형데이터가 갖고 있는 이상치, 클래스 불균형 문제를 해결하였다.

제안한 전처리 기법의 성능평가를 위해 UCI Repository의 Pima Indians Diabetes Database를 사용하였으며, K-Fold교차검증기법, ROC Curve, 혼돈 행렬을 활용하여 성능평가를 진행하였다. 학습 모델은 머신러닝에서 많이 사용하고 있는 6가지 분류 모델 및 스태킹 기법을 적용한 새로운 분류 모델을 사용하였다. 본 논문의 전처리 과정을 적용한 당뇨병 데이터는 Stacking_LGBMClassifier에서 94%의 정확도와 재현율 99%, 92%의 F1-Score를 보였으며, 이는 기존의 IQR알고리즘을 포함한 전처리기법을 적용하였을 때 보다 각각 3%, 10%, 5%의 우수한 성능을 나타내었다.

추후 여러 가지 특징을 포함하고 있는 데이터를 기반으로 이상치를 제거할 경우, 본 논문에서 제안하는 전처리 기법이 더욱 효과적인 결과를 가져다 줄 것으로 기대된다.