목차

표제지

국문 초록

목차

제1장 서론 9

제2장 본론 12

제1절 선행 연구 12

1. 대조 학습 12

2. 이미지-텍스트 검색 13

3. 비디오-텍스트 검색 13

4. 추천 시스템 14

제2절 예비적 논의 15

1. Triplet Loss 15

2. 믹스업 (Mixup) 16

제3절 방법론 16

1. 개요 16

2. Dynamic Mixed Margin (DMM) 17

3. 비디오-텍스트 검색에서의 DMM 19

4. 추천시스템에서의 DMM 21

제4절 이론 분석 22

제5절 실험 결과 23

1. 가상 데이터에서의 실험 결과 23

2. 이미지 검색 데이터에서의 실험 결과 26

3. 비디오-텍스트 검색 데이터에서의 실험 결과 27

4. 비디오 감성 분석에서의 실험 결과 34

5. 추천시스템에서의 실험 결과 36

제3장 결론 40

참고 문헌 41

Abstract 47

표 1. CUB 데이터셋에서의 이미지 검색 결과. Triplet Loss 만을 사용하는 것에 비해 DMM을 함께 사용했을 때 모든 지표에서 일관되게 성능이 향상된다. 26

표 2. ActivityNet-Caption 데이터셋에서의 비디오-텍스트 검색에 대한 정량 평가 결과 28

표 3. YouCook2 데이터셋에서의 비디오-텍스트 검색에 대한 정량 평가 결과 30

표 4. CMU-MOSEI에서의 다중 모달 감정 분류 정확도. T, V 및 A는 각각 텍스트, 비주얼 및 오디오 모달리티를 나타낸다. 모달리티 누... 35

표 5. MovieLens-1M 데이터셋에 대한 추천시스템 모델들의 성능 평가. DMM을 적용했을 때, 성능이 일관되게 모든 지표해서 향상됐음을... 37

표 6. Amazon Music 데이터셋에 대한 추천시스템 모델들의 성능 평가. DMM을 적용했을 때, NDCG@1, Recall@1, HitRatio@1을 제외하면... 37

표 7. MovieLens-1M 테스트 데이터셋에서의 추천 (제목; 장르)결과. 사용자 ID를 CML 기준 Recall@1/5/10 로 정렬하고 상위 1% 사용자... 38

그림 1. Margin α가 작을 경우 왼 쪽그림과 같이 부정쌍이 긍정쌍과 쉽게 구분되어 많은 데이터가 학습에 참여할 수 없지만, 이를 DMM을 18

그림 2. Margin α가 클 경우 모델이 유의미한 학습을 하기 어렵지만, DMM을 적용하여 이를 완화할 수 있다. 19

그림 3. 하늘색은 xj≠i 의 이동 범위를, 파란색은 해당 범위에 xj≠i 가 존재할 때, yi'≠i 가 학습에 참여함을 의미한다. DMM을 적용하면서, 기존...[이미지참조] 25

그림 4. 동적 마진 할당에 대한 제거 연구 결과이다. Triplet은 Triplet Loss를, Triplet + only Mixup은 Mixup을 이용한 구분이 어려운 긍정 부... 27

그림 5. "The opening credits of a show display an image of a blonde woman. A man walks in and sits with her in a restaurant... 32

그림 6. "A young girl is seen looking at the camera and leads into her putting eyeliner on as well as mascara. The girl... 32

그림 7. 부정적인 이미지 샘플만을 혼합한 경우와 긍정적인 이미지 샘플만을 혼합한 경우에 대한 제거 연구 결과이다. P는 positive... 33

그림 8. MovieLens-1M 데이터셋에서 사용자 및 아이템 임베딩의 t-SNE 시각화 결과. 파란색과 노란색은 각각 사용자와 아이템 임베딩을 의미한... 38