초록

표현 학습에서 많이 사용되는 방법 중 하나는 대조 학습이다. 이 학습은 긍정 쌍의 임베딩은 가까워지고 음수 쌍의 임베딩은 멀어지도록 한다. 대조 학습은 양수 쌍과 음수 쌍 사이의 상대적인 긍정 쌍과 부정 쌍 사이의 유사도 또는 거리를 활용한다. 그러나 대조 학습은 쉽게 구분할 수 있는 쉽게 구분되는 긍정-부정 쌍에 의해 기울기 소실 현상이 발생할 수 있다. 이 문제를 극복하기 위해 우리는 동적 혼합 마진 손실 (Dynamic Mixed Margin, DMM)을 제안하였다. DMM을 이용하여 쉽게 구분할 수 없는 어려운 긍정-부정 쌍을 생성하여 기울기 소실 문제를 해결하였다. DMM은 데이터셋을 믹스업으로 보간하여 구분하기 어려운 긍정-부정 쌍을 생성한다. 또한 DMM은 보간을 통합하는 동적 마진을 채택하며, 이를 통해 개선된 표현 학습을 가능하게 한다. DMM은 멀리 있는 긍정 쌍은 가깝게 만들고, 가깝지만 구분하기 쉬운 긍정 쌍은 약간 멀리 만들도록 권장하여 과적합을 완화한다. DMM은 플러그 앤 플레이 모듈로 다양한 대조 학습 손실 및 메트릭 학습과 호환 가능한 모델이다. 우리는 DMM이 이미지 검색, 비디오 텍스트 검색, 추천 시스템에서 다른 베이스라인보다 좋은 성능을 보이는 것을 검증하였다. 또한 DMM에서 학습한 표현은 실제 환경에서 자주 나타나는 모달리티 누락이 발생하더라도 더 강건한 성능을 보여주는 것을 확인하였다.