건설업의 인력 중심적 작업방식을 극복하기 위해서는 실제 건설현장에 대한 실질적인 현장적용성이 검증된 컴퓨터 비전 기반의 모니터링 방법이 필요하다. 이에 따라, 제한된 데이터에서도 효과적으로 모델을 학습시키기 위해 전이학습 (transfer learning)을 체계적으로 적용하였고, 실제 건설현장의 다양한 환경과 조건을 반영한 여러 굴착기 작업 영상을 통해 모델의 실질적인 현장적용성을 면밀히 평가하였다. 본 연구에서는 총 1,010 분 길이의 14,185 개의 비디오 데이터 (customized dataset)를 활용하여 모델을 개발하였으며, 다수의 동작이 포함된 연속 동영상에 대한 동작인식 성능을 중심으로 미세조정 (fine-tuning) 범위에 따른 성능을 비교 분석하였다. 그 결과, 3D ResNet-18 & 75% fine-tuned model 이 정확도는 0.906 (90.6%), F1 score 는 0.881 (88.1%)로 가장 우수한 동작인식 성능을 보이는 것으로 나타났다. 제안 방식 (비전 기반 전이학습 접근 방식)은 실제 건설현장에서의 분석 결과를 충분히 신뢰할 수 있는 수준으로, 굴착기의 동작을 정확하고, 신속하게 모니터링할 수 있어 안전, 생산성, 환경 모니터링 등 다양한 측면에서 효율적이고, 체계적인 관리 시스템을 구축하는 데 도움이 될 것이다.