골다공증은 노년일수록 발병률이 높은 대표적인 질환이다. 따라서, 고령화 사회로 진입하는 한국에서 사회적 비용 비중이 높은 골다공증과 관련된 연구를 진행하는 것은 의의가 있다. 기존 연구를 살펴보면, 사회과학연구에서 사용하는 전통적 통계기법을 이용한 여성의 골다공증 요인 분석 논문이 주를 이루고 있다. 골다공증과 관련하여 빅데이터 분석을 접목한 폐경기 여성의 골다공증 예방행위 모형 개발이나 골다공증 예측 및 개인별 위험 요인 분석 모델의 구축을 주제로 하여 논문이 나오고 있지만 최근 연구를 종합적으로 보면 2-3개에 그칠 정도로 비중은 미미한 상황이다. 또한, 골다공증은 폐경 이후 여성에게서만 발생하는 질병으로 인식되어 상대적으로 남성에 대한 연구가 미진하다. 하지만, 남성 골다공증과 관련된 연구를 살펴보면, 골다공증은 남성에게서도 발생할 수 있으며, 여성에 비해 사망률이 높고, 인지율 및 치료율은 낮아 치명적인 질병이 될 수 있다는 점을 보여주었다. 이로 인해 65세 이상 전체 노년층을 대상으로 한 골다공증 유병률에 대한 빅데이터 분석 연구가 활발히 진행되어야 할 필요성이 제기되어, 본 연구에서는 국민건강영양조사데이터를 기반으로 65세 이상 남녀노인 골다공증 유병률을 예측할 수 있는 모형을 개발하였다.
2016-2020년까지 총 5개년간 국민건강영양 조사 자료에서 공통 변수 372개를 선정하고, 이 중에 선행연구와 학회지 등 문헌조사를 기반으로 골다공증에 유관한 요인으로 지목하는 변수들을 선별했다. 종속변수는 골다공증 의사진단여부로 하였고, 앞서 선별한 변수들을 종속변수와의 관계에 있어 상관계수가 높은 순으로 46개를 선정하였다. 이중에서 결측치가 높은 8개의 항목을 제거하고 총 36개를 독립변수로 선정하였다. 여기에 나이, 성별 변수도 추가하여 독립변수는 총 38개 변수로 최종 구성하였다. 데이터 전처리 진행시에, 소수형은 정수형으로 변경하고, 총 8,170명의 데이터 중 결측치를 제거한 5,365명을 대상으로 데이터 분석을 진행하였다.
해당 변수들에 대하여 머신러닝 분류모델인 로지스틱 회귀분석, XG 부스트, 의사결정나무, 랜덤포레스트 분석 알고리즘을 적용하고, 각 알고리즘의 예측 성능을 확인하여 비교하기 위해서, 65세 이상 인구 5,365명의 데이터를 학습용 데이터와 테스트용 데이터로 구분하였다. 학습용 데이터는 전체 데이터의 80%로, 테스트용 데이터는 전체 데이터의 20%로 선택하였다. 종속변수인 y에는 골다공증 유병 유무를 target 변수로 정의하였고, 독립변수인 x에는 골다공증 유병 요인 변수로 최종 선정된 38개 변수에 대해서 전처리와 결측치 제거를 완료하고 더미변수화 시킨 변수들로 정의하였다. 평가지표는 이진분류에서 널리 사용되는 정확도, 정밀도, 재현율, F1 스코어, ROC 곡선을 구하여 도출된 AUC 값으로 하였다. 분류기준을 0.4, 0.45, 0.5, 0.55, 0.6으로 변경 했을 때의 혼동행렬을 기반으로 산출된 정확도, 정밀도, 재현율, F1 스코어에서 대부분 랜덤포레스트가 좋은 결과를 보였다. 특히, AUC 값은 랜덤포레스트(0.8068), XG 부스트(0.8059), 로지스틱 회귀분석(0.7800), 의사결정나무(0.6277) 순으로 낮아진다. 따라서, 65세 이상 남녀노인 대상으로 골다공증 유병률을 예측시에 해당 모델을 적용하는 것으로 최종 채택하였다. 또한, 랜덤포레스트로 골다공증 유병률을 예측할 때, 어떠한 변인들이 골다공증에 영향을 미치는지 파악해보았다. 보유질병 요소 관련해서는 골관절염과 이상지질혈증 보유가 골다공증 예측에 영향력이 있는 것으로 나타났다. 또한, 인구학적 요소로는 남성, 만나이, 소득 4분위수(개인), 가구원수 2-3명, 결혼여부, 결혼상태가 사별이거나, 민간의료보험 미가입인 경우, 기본 건강 요소로는 신장, 체중, 허리둘레, 체질량지수, 총콜레스테롤 수치가 골다공증 예측에 영향력이 있는 것으로 나타났다. 마지막으로, 건강행태적 요소로 평생 5갑이상 흡연 또는 비흡연일 경우와 비타민D 섭취량이 영향력이 높게 나타났다.
본 연구를 통해 65세 이상 노인인구의 골다공증 유병률 예측 모델을 개발하면서 이 결과가 의료계와 보건연구에 도움이 될 것으로 보인다. 또한, 골다공증과 관련된 막대한 사회적비용을 절감하는 데에 기여하며, 고령화 사회에서 노인의 건강 관리 및 삶의 질 개선하는 데에 큰 역할을 할 것으로 기대된다. 침묵의 질환으로 불리는 골다공증 질환의 미인지 환자에게 골밀도 검사를 추천하고, 위험요인을 알리는 등 사전 예방 활동이 가능해 환자의 인지율 상승과 사전 관리, 그리고 골다공증 진행이 악화되는 것을 막는 효과가 클 것으로 기대된다. 이번 연구를 통해, 기존연구와는 차별화된 65세 이상 노인인구를 대상으로 머신러닝을 적용한 골다공증 유병률 예측모형 개발 연구의 초문을 열었다. 추후에 골다공증 분야에서도 머신러닝을 적용한 예측모형 개발이 활발히 진행 될 수 있는 단초를 제공하였으며, 이는 학계에 긍정적인 영향을 미칠 것이라고 본다.