초록

파운데이션 모델과 같은 거대 AI는 최근 몇 년간 가장 큰 화두이다. 그중 하나인 영상 분할을 위한 파운데이션 모델인 SAM은 유연한 프롬프팅이 가능하며 뛰어난 실시간성과 제로샷 능력을 보여준다. 그러나 다른 파운데이션 모델이 그러하듯, 실험적 환경과 실제 적용에 실망스러운 성능을 보인다. 이상 탐지와 같이 정답 영역이 결함으로 특정되거나 세밀한 분할이 필요할 때 도메인과 테스크를 이해하지 못하며 성능 저하를 보인다. 이를 보안하기 위한 미세 조정에 관한 연구가 많지만 파운데이션 모델은 기본적으로 거대한 컴퓨팅 파워를 필요로 하고 기존의 성능을 상실하는 파괴적 망각 같은 어려운 문제가 있다.

이러한 문제를 해결하기 위해, 본 논문에서는 테스크 및 도메인 특성과 프롬프팅을 학습하는 DT-SAM을 제안한다. DT-SAM은 기존 SAM 설계를 바꾸거나 미세 조정 하는 대신 기존 설계 위에 제안하는 도메인 적용 모듈을 추가하였고 이 모듈만 학습한다. 도메인 적용 모듈은 사전 학습된 이미지 인코더의 특징 추출 능력을 최대 활용하여 마스크 디코더를 통해 나오는 마스크를 도메인 정보에 특화된 마스크로 출력하게 한다.

6가지 데이터셋의 실험을 통해 2가지 성능 지표에서 DT-SAM은 기존 SAM 보다 약 16% 개선을 보이고, SAM의 학습 데이터셋인 SA-1B의 1% 미만의 작은 데이터셋으로 도메인을 충분히 적응할 수 있음을 보인다. 또한, DT-SAM 학습은 단일 GPU로 진행하며 매우 가벼운 조건에서 실험이 가능하다. Ablation Study를 통해 제안 모듈을 구성하는 3가지 요소를 전부 사용하는 것이 가장 성능이 좋음을 확인할 수 있다.