使用機器學習算法來構建智能聊天機器人-CDA數據分析師官網

熱線電話：13121318867

登錄

首頁精彩閱讀使用機器學習算法來構建智能聊天機器人

使用機器學習算法來構建智能聊天機器人

2019-07-15

收藏

使用<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機器學習</a>算法來構建智能聊天機器人

翻譯 | CDA數據分析研究院，轉載需授權

原文 | https://blog.statsbot.co/chatbots-machine-learning-e83698b1a91e

你是否曾與蘋果的Siri，亞馬遜的Alexa，微軟的Cortana或其他助手交談以設置鬧鐘、給朋友打電話或安排會議？許多人可能會說對的我的確這么做過，盡管會話助手在常見和日常任務中都很有用，但很難迫使會話助手就一般性的，有時是哲學性質的話題進行討論。

Statsbot團隊邀請了數據科學家，dmitry Persiyanov，來解釋如何用神經會話模型修復這個問題，以及如何使用機器學習來創建聊天機器人。

通過自然語言與機器交互是通用人工智能的要求之一。人工智能的這一領域被稱為對話系統，語音對話系統或聊天機器人。機器需要為你提供信息豐富的答案，維持對話的上下文，并且難以與人類（理想情況下）區分。

在實踐中，最后一項要求尚未達到，但幸運的是，如果機器人有用，并且是一個有趣的溝通者，可以進行一些有趣的溝通，那么人類就準備好與他們進行對話了。

對話系統目前有兩種主要類型：面向目標（Siri，Alexa，Cortana等）和一般會話（Microsoft Tay bot）。

前者幫助人們使用自然語言解決日常問題，而后者嘗試與人們進行范圍廣泛的對話。

在這篇文章中，我將給出一個基于深度神經網絡的一般會話對話系統進行比較概述。我將描述主要的架構類型和推進它們的方法。

我希望這篇文章最終能成為每個想要用機器學習創建聊天機器人的人的切入點。如果你讀完這篇文章直到最后，你就可以訓練自己的會話模型了。

準備好了么？

讓我們開始吧！

我將參考循環神經網絡和單詞嵌入，所以你應該知道它們是如何工作的，以便輕松地理解這篇文章。

生成和選擇模型

一般會話模型可以簡單地分為兩種主要類型 - 生成模型和選擇性（或排名）模型。此外，混合模型也是可能的。但常見的是，這些模型構思了對話語境的幾個句子并預測了這種語境的答案。在下圖中，你可以看到此類系統的說明。

使用<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機器學習</a>算法來構建智能聊天機器人

在這篇文章中，當我說“網絡使用單詞序列”或“單詞被傳遞給RNN”時，我的意思是單詞嵌入被傳遞到網絡，而不是單詞ID。

關于對話數據表示的注釋

在深入討論之前，我們應該討論一下對話數據集是什么樣的。下面描述的所有模型都是成對訓練（上下文，回復）。上下文是在回復之前的幾個句子（可能是一個）。這個句子只是它的詞匯表中的一系列標記。

使用<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機器學習</a>算法來構建智能聊天機器人

為了更好地理解，請查看表格。從兩個人之間的原始對話中提取了三個樣本：

- 嗨！ - 嗨，你好。 - 你幾歲？ - 二十二。你呢？ - 我也是！哇！

請注意批處理中每個句子末尾的“ ”（序列結尾）標記。這個特殊標記有助于神經網絡理解句子的邊界并明智地更新其內部狀態。

某些模型可能會使用來自數據的附加元信息，例如說話者的ID，性別，情感等。

現在，我們準備繼續討論生成模型。

生成模型

我們從最簡單的會話模型開始，“ 神經對話模型”。

使用<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機器學習</a>算法來構建智能聊天機器人

為了對對話進行建模，本文采用了一個序列到序列（seq2seq）框架，該框架出現在神經機器翻譯領域，并成功地適應了對話問題。該體系結構由兩個具有不同參數集的RNN組成。左邊的一個（對應于ABC標記）稱為編碼器，而右邊的一個（對應于 -WXYZ標記）稱為解碼器。

編碼器如何工作的？

編碼器RNN每次構造一個上下文的標記序列，并更新它的隱藏狀態。在處理整個上下文序列之后，它產生一個最終隱藏的狀態，這個隱藏狀態結合了上下文的意義并用于生成答案。

解碼器如何工作？

解碼器的目標是從編碼器獲取上下文表示并生成一個答案。為此目的，在解碼器RNN中維護詞匯上的softmax層。在每個時間步長中，該層采用解碼器隱藏狀態并輸出其詞匯表中所有單詞的概率分布。

以下是生成回復的工作原理：

使用最終編碼器隱藏狀態（h_0）初始化解碼器隱藏狀態。
傳遞標記作為解碼器的第一個輸入并更新隱藏狀態（h_1）
從softmax層（使用h1）采樣（或以最大概率取一個）第一個字（w1）。
將此單詞作為輸入傳遞，更新隱藏狀態（h1 - > h2）并生成新單詞（w_2）。
重復步驟4，直到生成標記或超出最大答案長度。

使用<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機器學習</a>算法來構建智能聊天機器人

解碼器中生成回復，適用于那些喜歡公式而不是單詞的人。這里，w_t是時間步長t上采樣的單詞； θ是解碼器參數，phi是密集層參數，g表示密集層，p-hat是時間步長t詞匯表的概率分布。

在生成回復時使用argmax，當使用相同的上下文時，總是會得到相同的答案（argmax是確定性的，而采樣是隨機的）。

我上面描述的過程只是模型推理部分，但也有模型訓練部分，它以稍微不同的方式進行工作 - 在每個解碼步驟，我們使用正確的單詞y_t而不是生成的單詞（w_t）作為輸入。換句話說，在訓練時，解碼器使用正確的回復序列，但刪除了最后一個標記并且標記被預先添加。

使用<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機器學習</a>算法來構建智能聊天機器人

解碼器推斷階段的說明。前一時間步長的輸出作為當前時間步長的輸入。

目標是在每個時間步長上最大化限度的提高下一個正確的單詞的概率。更簡單地說，我們要求網絡通過為序列提供正確的前綴來預測序列中的下一個單詞。通過最大似然訓練進行訓練，這導致經典的交叉熵損失：

使用<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機器學習</a>算法來構建智能聊天機器人

這里，y_t是在時間步驟t的回復中的正確答案。

生成模型的修改

現在我們對序列到序列框架有了基本的了解。我們如何為這些模型添加更多泛化能力？有很多方法：

向編碼器或/和解碼器RNN 添加更多層。
使用雙向編碼器。由于解碼器的正向生成結構，使得解碼器無法實現雙向傳輸。
試驗嵌入。你可以預先初始化單詞嵌入，也可以與模型一起從頭開始學習它們。
使用更高級的回復生成過程 - beamsearch。我的想法是不“貪婪地”生成答案（通過將argmax用于下一個單詞），但考慮更長鏈詞的概率并在其中進行選擇。
使你的編碼器或/和解碼器卷積的。Convnet可能比RNN更快地工作，因為它們可以有效地并行化。
使用注意機制。注意機制最初是在神經機器翻譯論文中引入的，并且已經成為一種非常流行且強大的技術。
在每次執行步驟時，將最終編碼器狀態傳遞給解碼器。解碼器僅查看最終編碼器狀態一次，然后可能會忘記它。一個好的主意是將其與單詞嵌入一起傳遞給解碼器。
不同編碼器/解碼器狀態大小。我上面描述的模型要求編碼器和解碼器具有相同的隱藏狀態大?。ㄒ驗槲覀冇米罱K編碼器的狀態初始化解碼器狀態）。你可以通過從編碼器最終狀態向初始解碼器狀態添加投影（密集）層來消除此要求。
使用字符而不是單詞或字節對編碼來構建詞匯表。字符級模型是值得考慮的，因為它們的詞匯量較小，并且可以理解詞匯中沒有的單詞，因此它們的工作速度更快。字節對編碼（BPE）是兩全其美的。我們的想法是在序列中找到最常見的指標對，并將它們合并為一個指標。

生成模型的問題

稍后，我將為你提供流行實現的鏈接，以便你可以訓練自己的對話模型。但現在我想告訴你一些你將面對的生成模型的常見問題。

通用回復

通過極大似然訓練的生成模型傾向于預測一般回復的高概率，例如“好”，“否”，“是”和“我不知道”的廣泛情境。

回復不一致/如何合并元數據

seq2seq模型的第二個主要問題是它們可以為釋義的上下文生成不一致的回復，但具有相同的意義：

使用<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機器學習</a>算法來構建智能聊天機器人

最常被引用的與之相關的工作是“ 基于角色的神經對話模型”。作者為每個話語使用說話者的ID來產生答案，這不僅取決于編碼器狀態，還取決于說話者的嵌入。揚聲器嵌入與模型一起從頭開始學習。

使用<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機器學習</a>算法來構建智能聊天機器人

使用這個想法，你可以使用你擁有的不同元數據來擴充你的模型。例如，如果你知道說話的時態（過去/現在/將來），你可以在推理時以不同的時態生成回復！你可以調整回復者的性格（性別，年齡，情緒）或回復屬性（時態，情緒，問題/非問題等），同時你有這些數據來訓練模型。

為了你的練習

下面是一些不同框架中的seq2seq模型，如果你可以打開的話，可以看一下，都是一些外網的模型數據之類的。

TensorFlow

谷歌官方的實現
另外兩個實現，你可能會覺得使用PyTorch更舒服（seq2seq用于翻譯，但你可以使用相同的代碼進行對話）
使用seq2seq進行翻譯（你可以使用相同的代碼但是使用對話的數據）
來自IBM的實現

流行的實現方法和良好的API

論文和指南

關于序列到序列聊天機器人的教程
注意機制 - Bahdanau的注意 - Luong的注意 - 使用多頭注意+前饋網絡機器翻譯任務的最新技術。 - 關于RNN注意的教程
字節對編碼紙
ConvS2S論文

深入選擇性模型

完成生成模型之后，讓我們了解選擇性神經對話模型的工作原理（它們通常被稱為DSSM，代表深層語義相似性模型）。

選擇模型不是估計概率p（回復|上下文; w），而是學習相似性函數 - sim（回復，上下文; w），其中回復是預定義的可能答案池中的元素之一（參見下圖）。

直覺是網絡將上下文和候選答案作為輸入，并返回它們彼此之間的可信度。

使用<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機器學習</a>算法來構建智能聊天機器人

選擇性（或排名或dssm）網絡由兩個“塔”組成：第一個用于上下文，第二個用于響應。每座塔都可能擁有你想要的任何結構。塔取其輸入并將其嵌入語義向量空間（圖中的向量R和C）。然后，計算上下文和應答向量之間的相似性，即使用余弦相似度。

使用<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機器學習</a>算法來構建智能聊天機器人

在推理時，我們可以計算給定上下文和所有可能答案之間的相似性，并選擇具有最大相似性的答案。

為了訓練模型，我們使用三重損失。Triplet loss在triplets上定義(context, replycorrect, replywrong)，等于:

使用<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機器學習</a>算法來構建智能聊天機器人

選擇性模型的三重損失。它與SVM中的最大邊際損失非常相似。

什么是replywrong？它也被稱為“負面”樣本（replycorrect稱為“正面”樣本），在最簡單的情況下，它是來自答案池的隨機回復。因此，通過最小化這種損失，我們以絕對值不提供信息的排序方式學習相似性函數。但請記住，在推理階段，我們只需要比較所有回復的分數，并選擇一個得分最高的。

選擇模型中的抽樣方案

你可能會問，我們為什么要從數據集中隨機抽取樣本？也許使用更復雜的抽樣方案是個好主意？確實如此。如果你仔細觀察，你可能會發現三元組的數量是O（n3），因此正確選擇負數是很重要的，因為我們無法完成所有這些（大數據，你知道）。

例如，我們可以從池中抽取K個隨機否定回復，對其進行評分，并選擇最高得分的那個作為否定答案。這種方案被稱為“硬負面”開采。如果你想深入挖掘，請閱讀“ 深度嵌入學習中的采樣事項 ”一文。

生成性與選擇性：利弊

此時，我們已經了解了生成模型和選擇模型的工作原理。但是你選擇哪種類型？這完全取決于你的需求。下表是為了幫助你做出決定。

使用<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機器學習</a>算法來構建智能聊天機器人

最難的部分是評估

其中一個最重要的問題是如何評估神經對話模型。有許多自動指標用于評估聊天機器人與機器學習：

選擇性模型的精確度/召回率/準確度
生成模型的困惑/損失值
BLEU / METEOR從機器翻譯得分

但是最近的一些研究)表明，所有這些指標都與人類對特定情境的答復適當性的判斷密切相關。

例如，假設你有上下文“Statsbot是否破壞了我們處理數據的方式”？，然后回答“當然是這樣”。但是你的模型會回答例如“這絕對是真的?！敝惖脑拋砘卮鹕舷挛?。上面顯示的所有指標都會給出這樣一個答案的低分，但我們可以看到這個答案與你的數據提供的一樣好。

使用<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機器學習</a>算法來構建智能聊天機器人

因此，目前最合適的方法是使用目標指標對模型進行人工評估，然后選擇最佳模型。是的，這似乎是一個昂貴的過程（你需要使用像Amazon Mechanical Turk這樣的東西來評估模型），但是目前我們沒有更好的東西。無論如何，研究界都朝這個方向發展。

為什么我們不能在智能手機中看到它們？

最后，我們準備創建最強大，最智能的會話模型，通用的人工智能，對吧？如果是這樣的話，擁有數千名研究人員的蘋果，亞馬遜和谷歌等公司已經將它們與個人助理產品一起部署。

盡管在這個領域做了很多工作，神經對話系統還沒有準備好在開放領域與人交談，并為他們提供信息/有趣/有用的答案。但至于封閉領域（例如技術支持或問答系統），有成功的案例。

總結

會話模型起初可能看起來很難掌握（而且不僅僅只有一開始）。當你準備練習時，選擇一些簡單的架構，從一個流行的數據集或者自己的數據集（Twitter，Reddit或其他）中選取一個，并在上面訓練一個會話模型。

CDA數據分析師考試相關入口一覽（建議收藏）：

? 想報名CDA認證考試，點擊>>> “CDA報名” 了解CDA考試詳情；

? 想學習CDA考試教材，點擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫，點擊>>> “CDA題庫” 了解CDA考試詳情；

? 想了解CDA考試含金量，點擊>>> “CDA含金量” 了解CDA考試詳情；

機器學習 RNN 神經網絡人工智能 SVM PyTorch 泛化能力召回率

數據分析咨詢請掃描二維碼

若不方便掃碼，搜微信號：CDAshujufenxi

上一篇干貨收藏 | 文科小姐姐也能讀懂的AI指南

下一篇常見的6種數據分析圖表，告訴你如何更好地分析它們

數據分析師考試動態

考試介紹
考試大綱
考試內容
考試地點

CDA報考指南

報考流程
考試時間
報名費用
聯系我們

數據分析學習

數據分析師資訊

更多

Copyright © 2015-2021, www.ruiqisteel.com All Rights Reserved. CDA數據分析師(北京國富如荷網絡科技有限公司) 版權所有京ICP備11001960號-9

京公網安備 11010802034615號經營許可證編號：京B2-20210330

聯系電話：13321103290 (微信同號)

OK

免費資料
免費試聽
訂制課程
職業規劃
認證考試

客服在線

日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码

客服在線

立即咨詢

免密碼登錄

提交首次登錄驗證后自動注冊