초록

본 연구는 만성 폐쇄성 폐질환(COPD)과 관련된 인과 요소 추출을 목표로 한다. 이를 위해 COPD 데이터셋을 구성하고, 의료 및 인과 정보를 포함한 데이터로 미세 조정한 모델을 기반으로 인과 추출 모델을 개발하였다. 또한, 효과적인 모델 학습을 위해 액티브 러닝 알고리즘을 적용하여 개별 결과를 비교하였다.

의료 환경에서는 다양한 요소가 인과적으로 상호작용하여 의료 인과 추론은 매우 중요한 과제로 자리 잡고 있다. 의료 정보의 디지털화로 자연어 기반의 의료 데이터 활용도가 높아졌고, 이에 따라 BERT와 같은 언어 모델 기반으로 의료 인과를 예측하고자 하는 시도가 발생하였다. 하지만 언어의 비정형성으로 인해 온전한 인과 요소 추출이 어렵고, 라벨이 주어진 데이터가 불충분하다는 의료 도메인의 한계로 인해 선행 연구에서는 한정된 정보에 대한 인과 추론을 중점적으로 다루었다. 이에 따라 라벨이 주어지지 않은 데이터에 대해서도 올바른 인과를 추출할 수 있는 대응책이 필요하다.

본 연구에서는 BERT 기반의 사전학습된 언어 모델을 미세조정하여 COPD 관련 인과를 추출하였다. 이를 위해 펍메드(PubMed) 데이터베이스로부터 COPD 관련 의료 논문을 크롤링(Crawling)하여 타겟 데이터셋을 구성하였다. 보다 정확한 인과 정보를 추출하기 위해 인과 문장을 선별하고 선별된 문장으로부터 원인과 결과를 추출하는 두 단계 모델을 고안하여 사전학습 모델의 종류와 훈련 데이터셋에 따른 인과 추출 성능을 비교하였다. 또한 인과 단어 구성과 의존성(Dependency)을 고려한 인과절 추출 등의 후처리 과정을 통해 정보 손실을 최소화하고 모델의 성능을 향상시키고자 하였다.

본 연구에서 활용한 데이터는 라벨이 부여된 데이터가 충분하지 않고 편향이 존재한다는 한계를 보인다. 이에 따라 인과 토큰 추출 모델의 미세 조정 과정에 다양한 액티브 러닝 알고리즘을 적용하여 모델을 효과적으로 학습하고, 가장 빠른 성능 향상을 보이는 알고리즘을 분석하였다.

본 연구에서 제안하는 인과 추출 모델은 온전한 인과 추출이 어렵다는 기존 문제를 보완하고자 하였으며, 라벨이 부여된 데이터에 대해서만 분석을 수행한 선행 연구와 달리 라벨이 부여된 데이터가 부족하다는 의료 도메인의 특성을 반영하여 효과적으로 언어 모델을 학습하였고, 시각화를 통해 라벨링되지 않은 데이터에 대해서도 모델이 올바른 인과를 추출할 수 있음을 검증하였다. 모델의 개발 과정은 타겟 데이터 수집을 포함하고 있어 COPD 외 다른 질병에 대해서도 용이하게 적용할 수 있으며, 이를 통해 효과적인 의료 진단 보조 시스템으로 기능할 수 있을 것으로 기대한다.