초록

2019년 11월 중국 우한시에서 발병한 코로나19는 2020년 중국을 넘어 세계로 퍼져나가 2020년 3월에는 전 세계적으로 확산되었다. 코로나19와 같이 전염성이 강한 바이러스는 예방과 확진시 적극적인 치료도 중요하지만 우선 전파 속도가 빠른 바이러스인 점을 감안할 때, 확진 사실을 재빠르게 파악하여 전파를 차단하는 것이 더욱 중요하다. 그러나 감염여부를 확인하기 위한 PCR검사는 비용과 시간이 많이 소요되고, 자가키트검사 또한 접근성은 쉽지만 매번 수시로 받기에는 키트의 가격이 부담이 될 수밖에 없는 실정이다. 이러한 상황에서 기침소리를 기반으로 코로나19 양성 여부를 판단할 수 있게 된다면 누구나 쉽게 언제, 어디서든 확진여부를 체크할 수 있어 신속성과 경제성 측면에서 큰 장점을 가질 수 있을 것이다. 따라서 본 연구는 기침소리를 기반으로 코로나19 확진 여부를 식별할 수 있는 분류 모델을 개발하는 것을 목적으로 하였다. 이를 위해, 본 연구에서는 먼저 MFCC, Mel-Spactrogram, Spectral contrast 등을 통해 기침소리의 feature를 추출하였다. 이 때, 기침소리의 품질을 위해 SNR를 통해 잡음이 많은 데이터는 삭제하였고, chunk를 통해 음성파일에서 기침소리만 추출하였다. 이후, 추출된 기침소리의 feature를 이용하여 코로나 양성과 음성을 분류하기 위한 모델을 구축하였으며, XGBoost, LightGBM, FCNN 알고리즘을 통해 모델 학습을 수행하고 각 알고리즘별 성능을 비교하였다. 또한 대상 데이터셋인 코로나 양성, 음성 데이터는 매우 불균형하게 구성되어 있었기에, 본 연구에서는 이상치 판별에 많이 사용되고 있는 Autoencoder와 IsolationForest 알고리즘을 이용한 분류 모델도 구축하였다. 마지막으로 다양한 관점의 연구를 위해, 기침소리 feature 추출 시 사용한 MFCC, Mel-Spactrogram, Spectral contrast는 다차원벡터와 이미지로 feature를 생성하여 성능을 비교하였다.