초록

배경: 환자의 정확한 식별은 환자 안전과 정확한 진단 및 치료를 위해 중요하다. 비록 실제 임상 현장에서 환자 식별 오류에 대한 보고가 드물긴 하지만, 한 번이라도 환자 식별의 오류가 발생하면 부정확한 치료와 잘못된 환자를 수술하는 등의 치명적인 결과를 초래할 수 있다. 따라서 본 연구의 목표는 쌍으로 된 흉부 방사선 사진에서 환자 식별 오류를 자동으로 검출하는 딥러닝 모델을 제안하여 이를 평가하고 전문가와 비교 분석하는 것이다.

방법: 우리는 240,004 개의 흉부 방사선 사진을 활용하여 환자 식별을 위한 딥러닝 모델을 개발하였다. 딥러닝 모델은 지도 대조 학습을 통해 잠재 공간에서 같은 환자의 흉부 방사선 사진의 경우 거리를 가깝게, 다른 환자의 흉부 방사선 사진의 경우 거리를 멀게하는 방향으로 학습을 하였다. 이렇게 학습한 모델은 내부 검증 데이터셋, CheXpert 및 Chest ImaGenome 데이터셋을 비롯한 여러 데이터셋을 사용하여 검증되었으며, 각 데이터셋은 여러 인종을 포함한다. 모델의 성능은 질병의 상태 변화에 따라서도 분석되었으며, 모델의 성능을 평가하기 위해 세 명의 주니어 방사선 전문의 그룹(그룹 I), 두 명의 시니어 방사선 전문의 그룹(그룹 II) 및 두 명의 인증된 전문 방사선 전문의 그룹(그룹 III)의 쌍으로 된 흉부 방사선 사진에서 환자를 식별하는 성능과 비교하였다. 또한, 비열등성 검정을 통해 비교 분석하였다.

결과: 유사성 기반 딥러닝 모델인 SimChest 는 질병의 상태 변화 여부와 관계없이 다양한 데이터셋에서 가장 뛰어난 환자 식별 성능을 보였다(내부 검증 데이터셋 [수신자 작동 특성 곡선 아래의 영역 (AUC) 범위 0.992-0.999], CheXpert [0.933-0.948], 및 Chest ImaGenome [0.949-0.951]). 방사선 전문의들은 쌍으로 된 흉부 방사선 사진에서 평균 정확도 0.900(95% 신뢰 구간 0.852-0.948)로 환자를 식별할 수 있으며, 이는 전문의들의 수련 경험의 증가와 함께 향상되었다. 그룹 I 의 평균 정확도는 0.874, 그룹 II 는 0.904, 그룹 III 는 0.935 였으며, SimChest 의 평균 정확도는 0.904 였다. SimChest 의 성능은 방사선 전문의들의 평균 성능과 유사성을 가지며, 비열등성 검정에서 P-값은 0.015 로 나타났다. 이는 SimChest 가 방사선 전문의들의 성능을 크게 못지않은 수준으로 달성했음을 의미한다.

결론: 이 진단 연구는 딥러닝 모델이 쌍으로 된 흉부 방사선 사진을 사용하여 환자 식별오류를 자동으로 검출하며, 이는 방사선 전문의의 수준에 비열등함이 입증되었다. 이 연구는 실제 임상 현장에서 환자 식별을 통해 환자 안전을 향상시키는 데 활용될 수 있다.