목적지향형 대화 시스템은 대화 상태를 추적하고 적절한 응답을 생성하여 사용자가 정의된 목표를 달성하도록 설계되었다. 최근 대규모 데이터셋을 기반으로 사전 훈련된 종단간 대화 모델이 목적지향형 대화 시스템에서 뛰어난 성능을 보이고 있다. 그러나 이러한 모델들은 시스템을 구성하는 여러 과제(언어 이해, 대화 상태추적, 응답 생성)를 훈련하기 위해 모든 매개변수를 공유하며 학습하기 때문에 각 과제를 개별적으로 개선하기 어렵다는 문제가 있다. 또한, 대규모 매개변수를 미세 조정하기 위해서는 높은 컴퓨팅 자원과 시간이 필요하다. 따라서 우리는 사전 학습된 모델의 미세조정에 비해 상대적으로 가벼우면서 빠른 방식으로 모델을 학습시키려고 한다. 본 논문에서는 사전 훈련된 네트워크의 매개변수를 고정시킨 뒤, 고정된 레이어 뒤에 소수의 매개변수만 추가하여 각 과제별로 독립적으로 학습하는 Task-Optimized Adapters를 가진 종단간 목적 지향형 대화 시스템을 제안한다. 또한 강화학습을 통해 대화 상태 추적 및 응답 생성 모듈의 성능을 향상시켜, 적응기 학습에서 예상되는 성능 하락을 극복하고, 목표에 부합하며 자연스러운 응답 생성을 가능하도록 한다. 추가적으로, 최근 연구되는 ChatGPT를 활용하는 TOD 방법론과 비교하여, 우리 방법론의 우수성을 입증하는 한편, TOD에서의 ChatGPT의 한계를 지적한다. 마지막으로, 실험의 결과로 우리의 방법론이 모든 지표에서 충분히 견줄 만한 성능이 나왔으며, 특히 MultiWOZ 2.2의 대화 상태 추적 과제에서 새로운 최고 성능을 달성하였다.