1. 程式人生 > >論文筆記——基於網絡的端到端可訓練任務導向對話系統

論文筆記——基於網絡的端到端可訓練任務導向對話系統

margin 用戶 統一 努力 play 機器人 int center 數據庫

論文原文:https://arxiv.org/abs/1604.04562

摘要:

目前,開發任務型對話系統一般需要創建多個組件,並且需要大量的已標記數據。在本文中,我們介紹了一種基於神經網絡的文本輸入,文本輸出端到端的可訓練的面向目標的對話系統,該系統收集對話數據的方式是基於一種新穎的流水線Wizard-of-Oz 框架。這種方法能夠更加容易地開發對話系統並且不需要對手頭的任務做太多假設。結果表明,該模型可以自然地與人類交流幫助他們完成搜索參觀領域的任務。

1. Introduction

構建一個任務導向型對話(例如酒店預訂)是非常困難的,因為它是根據任務變化而變化的,並且還會受到訓練數據可獲得性的影響。為了減緩這個問題,目前機器學習方法主要是將此問題看做是一個不完全可觀察馬爾科夫決策過程(POMDP),目的是使用強化學習(RL)通過與真實用戶交互來在線訓練對話策略。然而,語言理解和語言生成模塊仍然依賴於監督學習,因此仍然需要語料庫來進行訓練。此外,為了使RL易於處理,必須仔細設計狀態和動作空間,這可能會限制模型的表達能力和可學習性。 並且,訓練此類模型所需的reward functions難以設計且難以在運行時測量。

另一方面,序列到序列的學習激發了一些努力來構建端到端的可訓練,非任務導向的會話系統。該系列方法將對話視為目標序列轉換問題的來源,應用編碼器網絡將用戶查詢編碼成表示其語義的分布式向量,然後調制解調器網絡以生成每個系統響應。 這些模型通常需要大量數據才能進行訓練。 它們允許創建有效的聊天機器人類型系統,但它們缺乏支持特定於域的任務的能力,例如,能夠與數據庫交互並將有用信息聚合到其響應中。

在本文中,我們通過平衡兩個研究團體的優勢和劣勢,為面向任務的對話系統提出了一個基於神經網絡的模型。

為了訓練目標應用的模型,我們引入了一種新的管道數據收集機制,其靈感來自於Wizard-of-Oz 範例,通過眾包來收集人 - 人對話語料庫。 我們發現這個過程很簡單,可以在線快速收集數據,開發成本非常低。

2. Model

技術分享圖片

圖1. 端到端的可訓練對話系統框架

如圖1所示,在每輪對話中,系統從用戶輸入中獲取一系列的tokens(替代插值和鍵槽)

論文筆記——基於網絡的端到端可訓練任務導向對話系統