의미론적 분할과 이미지 캡셔닝 작업은 영상 참조 캡션 데이터의 부족함으로 인해 실용적인 적용이 제한된다. 이러한 문제를 완화하기 위해, 본 논문에서는 인간의 장면이해 방식에 기반한 의미론적 분할 모델을 소개하고 이에 강화학습 알고리즘을 적용한 이미지 캡셔닝 모델을 설명한다. 기존 의미론적 분할 모델의 경우 영상의 특징을 한번 추출하여 분석하는 것이 일반적이나, 본 모델에서는 영상을 다양한 척도로 반복해서 분석하는 방법을 제시한다. 이를 위해 새로운 다중 스케일 구조의 신경망을 고안하였으며, 본 모델은 영상의 특징을 추출하는 합성곱 신경망 계층에 영상의 채널을 각각 입력하여 의미론적 관련성을 예측한다. 의미론적 분할은 예측된 관련성을 인코더-디코더 구조에 활용함으로써 이루어지게 된다. 나아가 강화학습 기반의 기존 이미지 캡셔닝 모델의 성능을 개선하여 참조 캡션 데이터에 대한 의존성을 완화하고, 이에 제안한 의미론적 분할 모델을 적용하여 성능을 향상하였다. 제안한 의미론적 분할 모델은 기존 모델에 비해 다양한 객체를 높은 정확도로 검출하였으며, 이를 적용한 이미지 캡셔닝 모델에서는 참조 캡션이 없는 훈련 데이터를 이용하였음에도 준수한 성능을 확인하였다. 특히, MS COCO 데이터 세트를 통한 실험에서 본 논문에서 제안한 방법으로 학습된 이미지 캡셔닝 모델은 기존 비지도학습 기반의 방법들을 큰 격차로 능가하였으며 지도학습 기반 방법들에 비해 다양한 캡션을 생성하였다.