본문 바로가기 주메뉴 바로가기
국회도서관 홈으로 정보검색 소장정보 검색

목차보기

Title Page

Contents

Abstract 10

초록 11

Chapter 1. Introduction 12

1.1. Overview 12

1.2. Contribution 14

Chapter 2. Background 15

2.1. Task-Oriented Dialogue 15

2.2. ChatGPT Capabilities 17

Chapter 3. Methodology 20

3.1. Methodology 20

3.1.1. Adapter for each task (NLU, DST, NLG) 20

3.1.2. Metric-Aware Reinforcement Learning for DST & NLG module 22

3.1.3. ChatGPT Refinement Process for DST 24

Chapter 4. Experiments 27

4.1. Experimental Setup 27

4.1.1. Datasets 27

4.1.2. Baselines & Settings 27

4.2. Experimental Results 29

4.2.1. Dialogue State Tracking 29

4.2.2. End-to-End Response Generation 31

4.2.3. Further Analysis of Reinforcement Learning 32

4.2.4. ChatGPT Refinement Process Qualitative Analysis 35

Chapter 5. Conclusion 38

5.1. Summary 38

5.2. Limitations 39

Appendices 40

A. Units of Adapters 40

B. w/o Reinforcement Learning of TOATODsmall[이미지참조] 41

C. Implementation Details 41

Bibliography 42

List of Tables

TABLE 3.1. Comparing each parameter size of pre-trained and trainable. 20

TABLE 4.1. Joint Goal Accuracy for DST results. 30

TABLE 4.2. Inform, Success, BLEU, Combined Score for NLG. 31

TABLE 4.3. Task performance of TOATODbase before and after applying REINFORCE.[이미지참조] 32

TABLE 4.4. Hyperparameter experiment with a and b on the NLG task. 33

TABLE 4.5. Hyperparameter experiment with a on the DST task. 34

List of Appendix Tables

TABLE 1. Adapter units experiment results. 40

TABLE 2. Task performance of TOATODsmall before and after apply- ing REINFORCE.[이미지참조] 41

List of Figures

FIGURE 1.1. Overview of the Task-Optimized Adapters for an End-to-End Task-Oriented Dialogue System 12

FIGURE 3.1. Architecture of the sub-modules in TOATOD. 21

FIGURE 3.2. Overview of Dialogue State Refinement Process 24

FIGURE 3.3. Prompt examples of the restaurant domain. 25

FIGURE 4.1. Effect of hyperparameter a 34

FIGURE 4.2. Example of the cases of wrong refinement. 35

초록보기

 목적지향형 대화 시스템은 대화 상태를 추적하고 적절한 응답을 생성하여 사용자가 정의된 목표를 달성하도록 설계되었다. 최근 대규모 데이터셋을 기반으로 사전 훈련된 종단간 대화 모델이 목적지향형 대화 시스템에서 뛰어난 성능을 보이고 있다. 그러나 이러한 모델들은 시스템을 구성하는 여러 과제(언어 이해, 대화 상태추적, 응답 생성)를 훈련하기 위해 모든 매개변수를 공유하며 학습하기 때문에 각 과제를 개별적으로 개선하기 어렵다는 문제가 있다. 또한, 대규모 매개변수를 미세 조정하기 위해서는 높은 컴퓨팅 자원과 시간이 필요하다. 따라서 우리는 사전 학습된 모델의 미세조정에 비해 상대적으로 가벼우면서 빠른 방식으로 모델을 학습시키려고 한다. 본 논문에서는 사전 훈련된 네트워크의 매개변수를 고정시킨 뒤, 고정된 레이어 뒤에 소수의 매개변수만 추가하여 각 과제별로 독립적으로 학습하는 Task-Optimized Adapters를 가진 종단간 목적 지향형 대화 시스템을 제안한다. 또한 강화학습을 통해 대화 상태 추적 및 응답 생성 모듈의 성능을 향상시켜, 적응기 학습에서 예상되는 성능 하락을 극복하고, 목표에 부합하며 자연스러운 응답 생성을 가능하도록 한다. 추가적으로, 최근 연구되는 ChatGPT를 활용하는 TOD 방법론과 비교하여, 우리 방법론의 우수성을 입증하는 한편, TOD에서의 ChatGPT의 한계를 지적한다. 마지막으로, 실험의 결과로 우리의 방법론이 모든 지표에서 충분히 견줄 만한 성능이 나왔으며, 특히 MultiWOZ 2.2의 대화 상태 추적 과제에서 새로운 최고 성능을 달성하였다.