專訪SIGDIAL2020最佳論文一作高信龍一：成功都是一步步走出來的

本文作者：青暮

編輯：劉曉坤

2020-07-04 10:23

導語：清華代有人才出

作者 | 青暮、陳大鑫

編輯 | 蔣寶尚

作為ACL和ISCA所屬的關于對話系統的興趣小組的年度會議，SIGDIAL 2020已經開幕。其中，清華COAI小組拿到了SIGDIAL2020最佳論文。

這篇論文的第一作者是清華大學研二學生高信龍一，論文的題目是《Is Your Goal-Oriented Dialog Model Performing Really Well? Empirical Analysis of System-wise Evaluation》。中文譯為《你的目標導向型對話模式表現得很好嗎？系統評價的實證分析》。

近年來，目標（任務）導向型對話系統引起許多研究者的關注。一個目標型對話系統可包括多個模塊，例如一個傳統的流水線模型包括語言理解、狀態(tài)追蹤、對話策略、語言生成四個模塊，而各個模塊均有大量的新算法和模型被提出。

然而，大部分工作忽視了去評價一個完整的對話系統的性能。這些新算法基本只在相應模塊內進行比較驗證，而沒有評估該算法嵌入一個對話系統中的表現。根據細粒度和具體模型不同，各個模塊和模型之間可以有多種拼接方式組成一個對話系統。

此外，模塊內的評價基本只是在單論對話的設定下進行，而一個完整的對話應當由系統和用戶進行多輪交互達成的。故在論文中，作者嘗試比較了不同模塊、不同細粒度、不同配置下各個目標導向型對話系統，以作系統級的性能評估。搭建完的對話系統通過與模擬用戶或真實用戶進行多輪對話交互，并使用對話級別的評價指標進行實驗。

據清華大學黃民烈教授介紹到，論文的二作是同組的朱祺博士，此外還得到了微軟合作者和朱老師的支持。。論文視頻介紹?

注：SIGDIAL為學術界和行業(yè)研究人員提供定期的論壇，介紹話語和對話領域的前沿研究。該會議由SIGdial組織贊助，該組織屬于ACL和ISCA的話語和對話特別興趣小組。具體來說，SIGDIAL接收正式的、基于語料庫的、實現、實驗或分析性工作，包括但不限于以下主題：話語處理、對話系統、語料庫、工具、方法論、語用和/或語義建模、對話與話語處理技術的應用。

1

論文簡要介紹

面向目標的智能對話系統通常需要多個回合的對話完成用戶要求的復雜任務。

與開放域對話系統不同，面向目標的對話系統可以訪問外部數據庫，在該數據庫上向復雜任務的用戶查詢信息。

面向目標的對話系統可以分為三類，基于它們的體系結構，如下圖所示。

第一類是pipeline（或模塊化）系統，通常由四個部分組成：自然語言理解（NLU）、對話狀態(tài)跟蹤（DST）、對話策略（Policy）和自然語言生成（NLG）。

第二類是端到端（或統一）系統，直接從對話歷史中生成系統響應。

第三類介于上述兩種類型之間，有些系統使用結合了四種對話框組件中的某些（但不是全部）的運動類型模型。（例如，聯合詞級DST模型結合了NLU和DST，聯合詞級策略模型結合了對話策略和NLG。）

雖然人們設計了許多方法來評估和改進單個對話組件的性能，但是對于不同組件如何對對話系統的整體性能做出貢獻，還缺乏全面的實證研究。

據論文介紹，作者進行了系統的評估，并對不同設置下由不同模塊組成的不同類型的對話系統進行了實證分析。

結果表明：

（1）使用不同組件級別的細粒度監(jiān)控信號訓練的pipeline對話系統通常比使用粗粒度標簽訓練的聯合或端到端模型的系統獲得更好的性能。

（2）單輪、模塊內的評估結果并不總是與多輪、系統級的整體性能一致。

（3）盡管模擬用戶和真實用戶之間存在差異，但模擬評估仍然是昂貴的人工評估的有效替代，特別是在開發(fā)的早期階段。

2

實證分析結果

表1中的數據表明，與在聯合模型和端到端系統相比，pipeline系統通?？梢垣@得更好的總體性能，因為在組件級別使用細粒度標簽可以幫助pipeline系統提高任務成功率。

表1：具有不同配置和模型的系統級仿真評估，這里使用SYSTEM-表示配置的縮寫。

通過比較表1和表2中的結果表明驗證組件評估是否與系統評估一致很重要。

可以觀察到有時它們是一致的（例如表2a中的BERT> MILU，而SYSTEM-1> SYSTEM-2），但并非總是一致的（例如表中的TRADE> SUMBT 2b，但SYSTEM-6> SYSTEM-7）。

組件評估與系統評估之間有差異，使用檢索模型系統的優(yōu)越性可能意味著，在面向目標的對話系統中，NLG中較低的SER比較高的BLEU更為關鍵。

表2：每個模塊的組件性能。?表示來自MultiWOZ排行榜的結果。其中，NLG為：自然語言生成模塊從對話行為表示生成自然語言響應。E2E為：端到端模型將用戶的話語作為輸入，直接以自然語言輸出系統響應。

表3和表4中的結果表明，所有系統的整體性能隨任務域的不同而變化，并且隨著任務復雜度的增加而顯著下降，而pipeline系統對任務復雜性則相對魯棒。

表3：不同單域的性能。與“吸引力”相比，大多數系統在“餐廳”和“火車”中的性能更高。

表4：不同域數下的性能。隨著域數的增加，所有系統的性能都會下降。

表5顯示了5個對話系統的人工評估結果。與表1中的模擬評估相比，可以看到大多數系統的Pearson相關系數都在0.5到0.6之間，這表明模擬評估與人類評估的相關性中等。

表5：對人類用戶的系統評估，最后一列展示了模擬評估與人工評估之間的相關系數。

表6顯示了模擬評估中SYSTEM-1和SYSTEM-6之間的會話比較。

表7表明現有的對話系統容易受到人類語言變化的影響，例如表7中棕色突出顯示的句子，這表明在處理真實的人類對話時缺乏穩(wěn)健性。

需要明確的是，作者在論文中用的評價指標有兩個：任務效率：使用對話的次數，平均所有對話會話，來衡量完成一項任務的效率。用戶話語和隨后的系統話語被視為一個對話回合。系統應幫助每個用戶在20輪內完成目標，否則視為失敗。

任務成功率：用Inform F1和匹配率衡量，其中informf1評估所有信息請求是否得到滿足，匹配率評估所提供的實體是否滿足用戶目標中指定的所有約束。當且僅當Inform F1和匹配率均為1時，對話框才會標記為成功。

此外，還有一些其他結果：詞級DST預測的對話狀態(tài)只記錄當前回合的用戶約束，導致動作選擇（通過對話策略）的信息丟失，如下圖所示。

詞級DST與字級策略相結合可以獲得更好的整體性能，例如SYSTEM-13的成功率為40.4%，而SYSTEM-6的成功率為27.8%，如下圖所示。

所有這些聯合方法在傳統的pipeline系統中仍然表現不佳，而通過聯合訓練策略和NLG模塊可以改善響應生成：在使用聯合模型的所有系統中，SYSTEM-16獲得了最高的成功率（48.5%）和第二高的匹配率（59.67%）（SYSTEM-5～14）。

3

清華人做科研也是“一步一步”

這篇論文的第一作者高信龍一，原來是清華大學計算機系計55班。在大二的時候，也就是2016年10月份進入智能技術與系統國家重點實驗室交互式人工智能(CoAI)課題組，在黃民烈老師的指導下進行科研訓練。

主要研究方向為對話系統、推薦系統和強化學習。目前已在ACL，EMNLP，WWW，AAAI等頂級會議上以第一作者發(fā)表數篇長文。

高信同學進大學前專注于數學競賽，沒有絲毫計算機編程方面的基礎，在清華讀本科期間，一開始也是跟隨實驗室的馮珺學姐從事一些簡單的科研工作，主要做一些baseline的實現和分析。在學姐和老師的輔助下，一點點掌握科學實驗和結果分析等獨立科研能力。

大三的時候，高信龍一由于人工神經網絡課程和其他兩名本科生一起合作完成了一個項目，在里面又體會到了團隊合作時的一些心得，例如如何溝通、如何分配工作和時間。

他的科研經歷也并不是一帆風順，據高信龍一回憶：他為了完成第一個項目，整個暑假都和同學一起泡在實驗室里，期間在實驗上有過無數的嘗試和修正，從一次次失敗中分析其中的原因，汲取其中的經驗。

2019年，他成為清華大學計算機系碩士生，交互式人工智能組（CoAI）成員，算是正式“拜師”黃民烈教授。

所以，高信龍一算是“土生土長”清華學子，但從過往經歷，可以看到，清華學子的科研路也是一步一步走出來的，例如他從大二就動了科研的念頭，大三組織團隊完成科研任務，再到2019年攻讀碩士，以及今天的這篇最佳論文。高信龍一同學的科研路可謂踏踏實實，一步一個腳印。

4

One more thing：問答高信龍一

1.這次獲得最佳論文，你心情如何？有沒有什么研究建議想給大家分享的？

答：挺開心的，很榮幸自己的工作能得到學界的認可，很感謝身邊的老師、同學和同事給我的支持。我希望現在人工智能方向的研究者能靜下心來研究一些真正有意義、有深度的課題。

2.獲獎的這篇論文思路是什么樣的？主要解決了什么問題？

答：隨著近年來人工智能新模型和新算法層出不窮，我希望能讓學界重新重視一下對話評價的問題，思考一下對話模型的實用性。

本次工作針對各類模型、各類配置、各類設定的多輪任務型對話系統進行全面的系統評測和分析，為對話系統的研究者和開發(fā)者提供了一些重要的借鑒。

3.其他研究者目前主要關注改進的點是哪些方面？

答：可能更加關注于每個模塊內的性能提升。例如在任務型對話中，對話狀態(tài)追蹤就是一個比較熱門的方向。

4.為什么要選擇對話系統這一領域？

一開始并沒有明確的方向，所以先從算法入手，著眼到了強化學習上。后來隨著對組里的研究方向有了進一步了解之后，對對話這種人機交互的形式比較有興趣，同時也有一些場景可以利用到強化學習，所以選擇了對話系統這個領域，其中我個人相對專攻任務型對話系統。

5.現在在清華學習過程中有沒有一些經驗分享？

更多的把精力放到科研上了。平時要注意對文獻的閱讀積累，帶著問題去閱讀一些論文。

6.清華的培養(yǎng)機制，對你來說受益最大的是哪一方面？

可能是多元化的校園生活。只要用心，每個人都能在清華找到適合自己的環(huán)境。像是對科研感興趣的同學，大二的時候就可以借助計算機系里的“學術新星”計劃，提前進入實驗室接觸科研方面的知識。此外，和實驗室的教師和同學的學術探討也給我提供了很大的幫助。

7.平時有怎么樣的興趣愛好？

聽聽音樂，看看植物，和家人或好朋友聊聊天，其他基本就是在閉目養(yǎng)神了（笑）。

8.黃民烈老師說，這篇文章有微軟合作者的支持，請問畢業(yè)之后是打算去微軟么？

原本微軟研究院邀請我在今年春季過去參加實習的，但由于全球疫情爆發(fā)之后，沒能去成西雅圖那邊，所以現在還沒有確定畢業(yè)之后的去向。

我們也祝愿高信龍一科研之路一帆風順~

雷鋒網雷鋒網雷鋒網

雷峰網原創(chuàng)文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

青暮

編輯

發(fā)私信

當月熱門文章