小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

百分點智能對話技術(shù)探索實踐

 520jefferson 2020-12-28

嘉賓:蘇海波博士 百分點 首席算法科學家

整理:朱瑞杰

出品:DataFunTalk


導讀:智能對話系統(tǒng)因其巨大的潛力和商業(yè)價值受到越來越多研究者和從業(yè)者的關(guān)注,對話的主要種類包括閑聊型、知識型、任務型、閱讀理解型等,目前已經(jīng)廣泛應用在智能客服、智能音箱、智能車載等眾多場景。近年來,智能對話還出現(xiàn)了新的應用場景,例如可以將自然語言轉(zhuǎn)換為各種程序性語言,如SQL,從數(shù)據(jù)庫中找到相應的答案,讓用戶和數(shù)據(jù)庫的交互變得更加直接和方便。本文將圍繞智能問答中的問題語義等價模型、知識圖譜問答模型、NL2SQL模型等進行展開介紹,同時會介紹百分點智能問答實踐案例。

01

智能問答的典型場景

1. 典型的智能問答應用場景

在典型的智能問答應用場景中包括:

  • 閑聊式,開放域閑聊的典型例子,包括問天氣,寒暄,情感陪伴等。

  • 任務導向式對話,任務驅(qū)動的多輪對話的例子,包括智能音箱,語音智能點餐服務,這是特定任務模式下的服務。

  • 信息問答式,知識型問答,回答信息,例如問姚明的身高等,是用作獲取信息的服務。

2. 典型的智能問答對比應用場景

  • 閑聊機器人,在拉近距離、建立信任關(guān)系、情感陪伴、順滑對話過程、以及提高用戶粘性等方面發(fā)揮著作用,一般以關(guān)鍵詞觸發(fā),模糊匹配回復,知識范圍為不深入的開放領域,數(shù)據(jù)與知識來自于互聯(lián)網(wǎng)、閑聊交互開發(fā)者定期更新的數(shù)據(jù);

  • 知識型機器人,主要應用于咨詢和售后服務的場景,擁有一問一答,智能匹配應答,實現(xiàn)語義歸一的能力,在實際使用中代替部分的人工服務,服務于垂直單一行業(yè)領域,這部分的數(shù)據(jù)主要來自于企業(yè)自主更新的業(yè)務知識庫和不斷優(yōu)化的知識體系;

  • 任務機器人,在售前,銷售,售后均有涉及,可以進行多輪對話,實現(xiàn)深層語義識別,意圖識別等任務,主要服務于明確具體的任務場景,數(shù)據(jù)同樣來自于企業(yè)自主更新的業(yè)務知識庫和不斷優(yōu)化的知識體系;

另外,知識型機器人和任務型機器人均屬于為垂直行業(yè)領域服務的業(yè)務型機器人。

02

智能問答的產(chǎn)品架構(gòu)

1. 智能問答的具體流程

首先進行語音識別,將用戶會話識別出來后,經(jīng)過ASR結(jié)果糾錯和補全、指代消解、省略恢復等預處理之后,經(jīng)過敏感詞檢測,送入中控系統(tǒng)。中控系統(tǒng)是在特定語境下進行意圖識別的系統(tǒng),分為情緒識別、業(yè)務意圖識別、對話管理、異常處理等四個模塊,其中業(yè)務意圖包括QA問答機器人(QA Bot)、基于知識圖譜的問答機器人(KG Bot),NL2SQL機器人(DB Bot),任務型機器人(TASK Bot)。對話管理包括多輪對話的對話歷史管理、BOT當前詢問、會話狀態(tài)選取等模塊。異常處理包括安全話術(shù)(對意圖結(jié)果的結(jié)果進行后處理)、會話日志記錄、告警等功能。然后,進入話術(shù)/指令生成子系統(tǒng),這是識別問句意圖后的對話結(jié)果生成,包括話術(shù)生成和指令生成兩個模塊,在話術(shù)生成中,對話系統(tǒng)根據(jù)對話歷史數(shù)據(jù)和對話模板生成和拼接產(chǎn)生話術(shù),如果是任務型對話,將生成對應指令。另外,輔助系統(tǒng)通過畫像分析、用戶分析、問題分析等功能,進一步優(yōu)化問答系統(tǒng)的效果。

2. 智能問答產(chǎn)品的具體架構(gòu)

智能問答產(chǎn)品主要包括知識庫、對話模型、配置中心、多渠道接入以及后臺管理。針對不同的任務劃分,準備不同的知識庫,例如QA BOT需要引入問答知識對,KG BOT需要知識圖譜的支持等等。將針對不同任務的對話模型服務,部署接入各個平臺接口,譬如小程序、微信、網(wǎng)頁等,提供在線問答服務。配置中心主要提供QA對、閑聊語料、同義詞庫、特征詞庫等的可視化配置服務,實現(xiàn)知識配置的快速拓展。后臺管理針對智能問答系統(tǒng)實施整體監(jiān)控、日志管理、告警、權(quán)限管理等等,另外,它還提供各種維度的統(tǒng)計分析服務。

03

QA知識問答的技術(shù)實現(xiàn)

1. QA知識問答的簡介

這是以智能匹配問答庫為主要實現(xiàn)原理的問答機器人,將用戶所提問題與問答庫中的問題進行相似度匹配篩選,識別出語義等價的問題以及對應答案,完成對話。

首先用戶訪問PC網(wǎng)站或者公眾號平臺,通過語音描述要咨詢的問題,輸入ASR語音識別模塊,將得到的問題經(jīng)過糾錯之后,進行問題語義等價的識別、相似問題的推薦,并對問答結(jié)果進行記錄。經(jīng)過一段時間的累積之后,后臺就會得到實際應用中對于用戶咨詢問題的各種情況,這里包括未識別的問題、誤識別的問題、新挖掘的高頻問題,AI算法團隊針對這些問題進行優(yōu)化,包括問題的新增、答案的優(yōu)化、相似問題發(fā)掘、算法的優(yōu)化等部分,并將這些重新梳理的數(shù)據(jù)作為補充的問答知識在人工審核之后錄入知識庫,持續(xù)迭代。另外,在實際的應用過程中,問答知識庫的類型包括信息中心、組織人事處、后勤管理處、保衛(wèi)處、計劃財務處、離退休工作處等各種部門需要的業(yè)務知識數(shù)據(jù)。

2. 構(gòu)建知識庫的過程

知識庫的主要來源包括:歷史的問答和咨詢數(shù)據(jù)、業(yè)務知識梳理積累、規(guī)章制度和流程等內(nèi)容、輔之以同義詞詞庫等外部數(shù)據(jù),在功能上設立新建知識、導出知識、導入知識等。舉個例子來說明知識庫的格式,例如“北京分為多少區(qū)||北京行政區(qū)劃||北京有四個區(qū)嗎”,這個個問題都是語義等價的,其一級分類為中國,二級分類為北京,對應的答案是“2015年北京市轄東城、西城、朝陽、豐臺、石景山、海淀、門頭溝、房山、通州、順義、昌平、大興、懷柔、平谷、密云、延慶16個市轄區(qū)(合計16個地市級行政區(qū)劃單位);#n150個街道、143個鎮(zhèn)、33個鄉(xiāng)、5個民族鄉(xiāng)(合計331個鄉(xiāng)級行政單位)。||北京一共有16個區(qū);”如果新增問答知識,那么一級分類、二級分類、問題和回答是必須要添加的,以“||”作為分割多個問題和答案的分隔符等。

在配置中心,也可以通過可視化的配置功能,實現(xiàn)問答意圖、QA問答庫、閑聊庫等知識的快速創(chuàng)建以及分類管理。

3. 如何找到語義等價的問句

構(gòu)建問答知識庫之后,在檢索知識庫的過程中,最重要的是如何找到與輸入語義等價的問句,如下圖所示:

常用的相似度算法包括余弦相似度、編輯距離、關(guān)鍵詞重合度、BM25等等,實際使用中是有用,但仍然不夠,因為可能遇到如下問題:
  • 字面相似的句子語義不等價

  • 字面不相似的句子語義等價

例如問題“什么是新冠肺炎”和“解釋下新冠肺炎的定義”是語義等價,但和“什么是支氣管肺炎”卻不是語義等價的,采用編輯距離之類的算法是無法識別的。因而,只有基于語義理解的模型才能識別出來,這里包括兩類,一是傳統(tǒng)機器學習方法,二是深度遷移學習方法。

4. 基于BERT和BIMPM的語義等價模型方案

我們采用了基于BERT和BIMPM的語義等價模型方案,模型的網(wǎng)絡結(jié)構(gòu)如下圖所示:

BIMPM本身是十分經(jīng)典的模型,底層是通過word2vec向量來進行語義匹配計算,這里我們將word2vec詞向量全部替換為BERT的最上面若干層的輸出,并將原有模型中的BI-LSTM結(jié)構(gòu),替換為Transformer,以提高其在序列性上的表現(xiàn),實際測試中,該模型在Quora和SLNI數(shù)據(jù)集中達到了state-of-the-art的效果,如下圖所示:
上面的表格中顯示了BERT層數(shù)在效果表現(xiàn)上的差異,其中使用BERT最上面三層的參數(shù),作為模型的輸入,整體表現(xiàn)效果最佳。

5. 智能問答中語義等價模型

接下來介紹智能問答中語義等價模型的訓練、優(yōu)化和發(fā)布過程,該模型的目標是判斷兩個問句在語義上是否完全等價。

模型的具體訓練和發(fā)布閉環(huán)流程,如下圖所示:

在完成對標注數(shù)據(jù)樣本集的模型訓練,生成模型之后,我們將在沙盒環(huán)境中測試模型的表現(xiàn),針對模型表現(xiàn)不好的樣本,提取并標注再放入數(shù)據(jù)集重新訓練調(diào)優(yōu),模型發(fā)布至生產(chǎn)環(huán)境之后,針對實際使用中未識別樣本、誤識別樣本和新高頻樣本做對話分析,進行模型優(yōu)化后再重新發(fā)布模型。

實例:疫情問答系統(tǒng)

此問答系統(tǒng)基于上述技術(shù),采用疫情相關(guān)的問答知識庫,提供智能化、自動化的疫情知識問答,并且實現(xiàn)了實時統(tǒng)計數(shù)據(jù)、實時門診咨詢、實時數(shù)據(jù)咨詢、協(xié)助求醫(yī)報警等。

04

知識圖譜問答的技術(shù)實現(xiàn)

1. 基于知識圖譜問答的算法實現(xiàn)原理

本系統(tǒng)主要是通過將輸入問句,轉(zhuǎn)化為SparQL的語句,實現(xiàn)對知識圖譜的智能問答,例如武漢大學出了那些科學家,需要識別出武漢大學和科學家的兩個查詢條件才能得到交集答案,當不能使用常規(guī)NER識別出實體的時候,可以將訓練語料中的實體詞匯導入到ES搜索引擎中,實現(xiàn)對一些難以識別樣例的查詢。具體實現(xiàn)原理,如下圖所示:

首先針對用戶問題,經(jīng)過文本預處理,先進行實體識別,將實體送入別名詞典和ES中去,得到備選的實體名稱;再問題分類,這一步是為了得到問題結(jié)果的模板類型是什么,然后槽位預測,填寫實體和關(guān)系槽位;在實體分析模塊中,針對實體識別得到的備選實體,通過語義特征和人工特征進行實體消歧和實體檢索,生成實體鏈接,并將實體填入SparQL查詢模板語句之中;繼而,根據(jù)上一步實體鏈接,找到實體在知識圖譜中的所有關(guān)系,并對所有關(guān)系和用戶問題語句進行語義匹配的排序,得到了相似度最高的關(guān)系路徑,并將該實體在該關(guān)系下的結(jié)果填入SparQL的查詢模板之中;最后,根據(jù)填寫完成的查詢語句,在圖數(shù)據(jù)庫之中檢索校驗,得到答案。

仔細來談,在問題分類部分中,一個問題所屬的類型有三個判斷依據(jù):

  • 鏈式和夾式,鏈式解釋其查詢語句遵循鏈式查找,一步一步的查詢;夾式是指查詢的結(jié)果滿足兩個條件的交集;

  • 問題的跳數(shù),指的是需要建立的查詢次數(shù);

  • 每一跳是問實體還是問關(guān)系。

2. 實體分析模塊:實體鏈接

在實體分析模塊,實體鏈接就是用來處理問題和候選實體進行匹配的步驟,以確定所需的實體究竟是哪一個實體,畢竟同名實體是比較常見的。MatcgZoo是一款深度文本匹配的工具,支持DRMM、MatchPyramid、MV-LSTM、DSSM等深度匹配模型。采用該工具,我們需要準備實體匹配的正負樣本,將<問題、SparQL>樣本數(shù)據(jù)中,問題和正確的候選實體形成實體鏈接模型的正樣本,錯誤候選實體形成負樣本。在模型的改進方面,將上述得到的文本匹配特征和人工特征結(jié)合,使用stacking模型取得更好的效果。

3. 查詢生成模塊:路徑排序


在查詢生成模塊,針對問題和生成候選查詢匹配的問題上,就需要實現(xiàn)路徑排序。這里使用了孿生網(wǎng)絡來判斷其語義相似度,正負樣本生成與實體分析模塊類似,在模型改進上,BERT向量會比傳統(tǒng)詞向量取得更好的效果。

上面的方案在2020CCKS大賽上取得了F1為0.901的成績,并部署在GPU平臺上響應時間只需要200ms。

05

NL2SQL問答的技術(shù)實現(xiàn)

與上述兩種問答類型不同的是,NL2SQL問答不是基于問答對或者知識圖譜知識庫,它是基于結(jié)構(gòu)化數(shù)據(jù)表進行智能問答,實現(xiàn)自然語言轉(zhuǎn)SQL查詢的功能。

1. NL2SQL問答的技術(shù)實現(xiàn)原理:

首先,針對自然語言查詢語句,使用分詞、詞性標注、實體識別、依存句法等對句子進行句法分析,然后使用規(guī)則、詞向量、語言模型、深度學習等多種方法填充語義槽,具體包括查詢字段、聚合函數(shù)、篩選條件、分組字段等,然后基于這些填充的信息生成對應的SQL查詢語句。

在經(jīng)典的NL2SQL方案中,基于Seq2Seq的X-SQL模型是十分常見的,該模型的思路是先通過 MT-DNN 對原始問題及字段名稱進行編碼,再在問題前面人為地添加一個 [CXT] 用于提取全局信息。中間的 Context Reinforcing Laryer 層是這個模型的核心部分,它的目的是把 MT-DNN 得到的預訓練編碼在 NL2SQL 任務上進行增強和重組。這個中間層不僅能體現(xiàn)上下文信息,還能通過 Attention機制對字段名稱的編碼進行強化。這一層輸出的結(jié)果包括問題的編碼,以及強化后的字段編碼,后面的輸出層都會在這個基礎上進行。輸出層包括6個子模型:S-COL和S-AGG 用于預測 select 的字段,只依賴于強化后的字段名稱編碼,通過 softmax 對每個字段打分就行了;W-NUM 只依賴全局信息,用于預測 where 條件個數(shù);W-COL、W-OP和W-VAL 用于預測過濾條件的具體內(nèi)容,通過組合字段編碼,當前的 where 條件編號及問題編碼,通過softmax 評分就能得到需要的結(jié)果。

這個架構(gòu)已經(jīng)十分完善了,但是由于數(shù)據(jù)的局限,模型無法預測多個 select 及 group 的內(nèi)容。而且模型完全依賴字段名稱去提取過濾條件和select的內(nèi)容,在中文字段名稱特征不夠明顯或者領域數(shù)據(jù)與訓練數(shù)據(jù)偏差較大時,容易出錯。我們提出了一種結(jié)合依存語法樹的新方案在實際項目中得到了應用,下圖顯示此新方法的具體思路:

2. 基于X-SQL和依存句法樹的NL2SQL

首先,對問句進行分詞,再做依存句法分析,得到問句每一個成分在詞性、實體、是否為數(shù)據(jù)表字段、聚合函數(shù)等信息,再經(jīng)過詞庫和后序遍歷解析依存樹,將各個問句成分組合,最終得到解析結(jié)果。在基于X-SQL+句法分析+時間模板的模型設計下,達到90%以上的解析準確率,達到實用的效果。

06

小結(jié)

以上就是百分點關(guān)于智能問答技術(shù)的全部分享,總結(jié)起來有以下三點:

  • 基于預訓練模型的深度遷移學習技術(shù)在智能問答中將得到普遍應用;

  • NL2SQL問答技術(shù)目前還存在很多的技術(shù)挑戰(zhàn)和提升空間,是目前前沿熱門的技術(shù)研究方向;

  • 垂直行業(yè)性的智能問答場景,技術(shù)更容易落地,用戶能獲得更好的問答體驗。

今天的分享就到這里,謝謝大家。

    本站是提供個人知識管理的網(wǎng)絡存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多