초록

배경: 족부 체중부하 측면 방사선 사진 (Weight bearing lateral radiograph, WBLR) 은 후천성 평발을 진단하기 위한 표준진단법이다. 방사선 사진을 사용한 평발 진단은 관찰자 내 및 관찰자 간 변동에 따라 달라집니다. 여기서는 랜드마크 감지 및 의미 분할을 사용하여 평발 진단을 위한 자동 각도 측정을 위한 캐스케이드 컨볼루션 신경망(CNN) 기반 딥 러닝 모델 (Deep learning model, DLM) 을 개발했다. 본 연구는 랜드마크 검출과 의미론적 분할 방법론을 통해 평발 진단에서 관찰자 간 신뢰성을 향상시키는 것을 목적으로 한다.

재료 및 방법: 랜드마크 검출 모델 개발에는 한국 19세 남성의 WBLR 1,200개를, 의미론적 분할 모델 개발에는 300개의 WBLRS를 사용했다. 랜드마크 탐지에서 경험 많은 정형외과 의사가 22개의 방사선 랜드마크를 식별하고 정답을 만든 뒤, 평발 진단을 위해 3개의 각도를 측정했다. 다른 정형외과 전문의(OS)와 일반의사(GP)는 독립적으로 시험 데이터 세트의 랜드마크를 확인하고 동일한 방법으로 각도를 측정하였으며, 종골경사각과 관련된 것들, 종골피치각의 기준점들, 거골-제1 중족골 등 22개의 방사선 랜드마크를 조사하였다.

같은 방식으로 정형외과 의사는 의미론적 분할에서 정답역할을 하는 마스크를 ITK-SNAP를 사용하여 손으로 그려서 만들었다. 개발된 모델과 인간 관찰자의 성능 평가에는 주사위 유사도 계수 (Dice Similarity Coefficient, DSC)와 하우스도르프 거리 (Hausdorff Distance, HD)가 사용되었다. 최소 회전관성모멘트 (Minimum moment of inertia, MMI)와 주성분분석 (Principal Component Analysis, PCA)으로 각 뼈의 중심축을 계산한 결과는 골밀도가 일관되다고 가정하면 동일하다.

결과: 랜드마크 검출에서 DLM은 평발 진단을 위한 3개의 각도 측정에 대해 정답으로부터 작은 절대 평균 오차인 1.37°±1.82° 를 두 사람의 관찰자와 비교하여 보여주었다. DLM의 지도 하에 관찰자 OS와 GP의 평균 오차는 각각 2.35°±3.01° 에서 1.55°±2.09 로, 1.99°±2.76° 에서 1.56°±2.19° 로 감소하였다 (둘 다 P ＜ 0.001). 총 측정 시간은 관찰자 OS에서는 195분에서 135분으로, 관찰자 GP에서는 205분에서 155분으로 단축되었다.

의미론적 분할에서 MMI와 EF를 사용한 DLM의 절대 각도 오차는 각각 0.92±1.32와 1.34±2.07이다. DLM은 평발각도의 Area under the reciver operatinc characteristic(AUROC)를 기준으로 MMI 또는 EF를 사용한 측정 방법에 관계없이 인간 관찰자보다 전반적인 진단 정확도가 높다. 외부 검증에서 MMI를 이용한 DLM의 절대각 오차는 1.17±1.60, 1.23±1.39이며, EF를 이용한 절대각 오차는 각각 1.60±2.42, 1.68±1.98이다.

두 방법론 모두 외부 검증 세트에서 DLM의 절대 평균 오류는 원래 테스트 데이터 세트에서 인간 관찰자의 오류와 비슷하거나 우수했다.

결론: 우리의 DLM은 평발을 진단하는 데 있어 인간 관찰자보다 정확도와 신뢰성이 상당히 높았고, 인간 관찰자의 정확도와 신뢰성을 눈에 띄게 향상시켰다. 또한 DLM 내에서 각도 측정 방법을 비교할 때 MMI 방법이 EF보다 정확하다. 마지막으로, 딥 러닝은 실제 임상 세계에서의 적용 가능성에 대한 충분한 외부 검증 결과를 나타낸다.