목차

표제지

목차

약어 목록 8

국문 요약 9

Ⅰ. 서론 11

1. 연구배경 및 목적 11

Ⅱ. 관련 연구 14

1. 인간의 장면이해 메커니즘 14

2. 의미론적 분할 14

3. 이미지 캡셔닝 16

Ⅲ. 의미론적 분할 모델 21

1. 장면이해 메커니즘 21

2. 장면이해 메커니즘 기반의 의미론적 분할 모델 23

Ⅳ. 이미지 캡셔닝 모델 27

1. 이미지 캡셔닝 기존 모델 27

(1) 개념보상(Concept Reward) 28

(2) 적대보상(Adversarial Reward) 29

(3) 재구성 보상(Reconstruction Reward) 29

(4) 보상 통합 31

2. 기존 모델의 한계점 32

3. 개념보상의 개선 34

4. 보조 요지보상(Gist Assist Reward) 36

Ⅴ. 실험 및 결과 39

1. 의미론적 분할 모델 39

(1) 훈련 및 테스트 데이터 40

(2) Baseline 모델 실험 및 결과 40

(3) 훈련 데이터 크기에 따른 실험 42

(4) 제안한 모델의 Ablation Study 43

2. 이미지 캡셔닝 모델 44

(1) 훈련 및 테스트 데이터 45

(2) 평가지표 46

(3) 기존 모델과의 비교 실험 47

(4) 비지도학습 기반 모델들과의 비교 실험 50

Ⅵ. 결론 및 향후 연구 52

참고문헌 54

Abstract 60

표 1. 검증 데이터 세트의 클래스별 Baseline 및 제안하는 모델의 IoU 결과 41

표 2. 훈련 데이터 세트 크기에 따른 Baseline 및 제안하는 모델의 IoU 결과 43

표 3. 훈련 데이터 세트 크기에 따른 제안하는 파생 모델의 IoU 결과 44

표 4. 기존 모델과의 성능 비교 48

표 5. 기존 모델과 제안한 모델에 [그림 12]의 영상을 입력했을 때 출력된 캡션 결과 49

표 6. 비지도학습 기반 모델별 정확도 비교 50

표 7. 이미지 캡셔닝 모델별 다양성 비교 51

그림 1. 본 논문의 진행 과정에 대한 개요 12

그림 2. 인코더-디코더 기반의 이미지 캡셔닝 아키텍처 17

그림 3. 어텐션 기반의 이미지 캡셔닝 예시 18

그림 4. 제안하는 장면이해 메커니즘의 개요 21

그림 5. 제안하는 장면이해 신경망의 Glimpse, Reflect 모듈 24

그림 6. 제안하는 장면이해 아키텍처 26

그림 7. 기존 모델에서 문장 생성기 학습에 사용되는 보상 구조 28

그림 8. 기존 모델에서 영상과 무관한 캡션 생성의 예시 33

그림 9. 개선된 개념보상의 반영 과정 35

그림 10. 개선된 방식의 개념보상 반영 개요도 37

그림 11. 제안하는 이미지 캡셔닝 모델의 보상 구조 38

그림 12. 기존 모델과 제안한 모델의 비교평가를 위해 입력한 영상 49