智能對話新紀(jì)元：百萬日活對話機器人的LLM落地實踐

文明世界拼圖 2024-01-25 發(fā)布于重慶

展開全文

01

前言

阿里小蜜家族（阿里小蜜、店小蜜、萬象），從2015年發(fā)展至今，已經(jīng)成為了覆蓋淘天P-C（平臺-消費者）、B-C（商家-消費者）、P-B（平臺-商家）全咨詢體系的智能對話機器人，日均接待量級在百萬（阿里小蜜）到千萬（店小蜜）范圍。

作為淘天集團乃至行業(yè)內(nèi)最大體量的對話機器人應(yīng)用之一，阿里小蜜在對話算法能力上持續(xù)探索，在2022年chatgpt爆炸性的誕生之后，我們也加快了擁抱LLM技術(shù)的步伐。技術(shù)飛速發(fā)展，小蜜算法團隊全力投入LLM在客服域的落地應(yīng)用中，以端到端直出的方式，覆蓋了售后小蜜場景的問題定位、SOP方案播放和溝通追問等環(huán)節(jié)，以及售前小蜜（自營店/店小蜜商家）的商品問答能力。

02

當(dāng)前落地方案-基于大模型的進化

2.1 從Pipeline到大模型直出，將NLU/DM/NLG通過大模型端到端替換

對于大模型在對話機器人中的業(yè)務(wù)&技術(shù)價值，我們也有過反復(fù)的思考和討論，但我們對LLM在小蜜中應(yīng)用的終極目標(biāo)一直保持不變，也就是用LLM端到端的實現(xiàn)對話生成，這是基于以下的判斷：

從技術(shù)角度，原有多模型pipeline式的對話鏈路隨著多年的迭代和打補丁已經(jīng)過于復(fù)雜，而大模型可以大幅簡化鏈路，并且一定程度緩解誤差傳播。
從業(yè)務(wù)角度，技術(shù)升級最重要的還是需要LLM在對話能力上帶來體感上的明顯變化，才有可能進一步影響業(yè)務(wù)指標(biāo)。
對于備受關(guān)注的風(fēng)險問題，大模型出現(xiàn)的生成幻覺問題會不會影響業(yè)務(wù)效果？這個問題要分情況看，一方面我們從技術(shù)角度減少幻覺的產(chǎn)生，一種是從業(yè)務(wù)角度減少幻覺產(chǎn)生的影響，這需要結(jié)合場景的進行設(shè)計。

2.2 阿里小蜜：分階段、分場景的業(yè)務(wù)覆蓋

我們從業(yè)務(wù)視角將一通消費者的客服咨詢對話拆分為三個階段：問題溝通、SOP操作和方案溝通。

在業(yè)務(wù)分割的基礎(chǔ)上，我們分階段的實現(xiàn)了不同的大模型對話能力（如下圖）。同時針對營銷活動/購買指南等以FAQ/文檔為主的業(yè)務(wù)場景，我們沒有采用多階段方案，而是直接使用了端到端檢索增強的算法來實現(xiàn)對話。

? 2.2.1 多輪問題定位

業(yè)務(wù)背景

作為客服機器人，阿里小蜜需要承接用戶表達(dá)的問題并進行理解，進而定位到對應(yīng)的知識或解決方案流程。過去小蜜問題溝通的模式始終沒有跳脫出一問一答的形式，長遠(yuǎn)來源，這樣會導(dǎo)致兩大類問題：

對用戶表達(dá)精確度提出了較高的要求，因為更自然的表達(dá)方式往往不一定能定位到準(zhǔn)確的解決方案。
為了適配小蜜的單輪問題溝通效果，整體的知識體系中的知識也朝著越來越全、越來越大的模式演進，以保證用戶的問題或訴求理解不會偏移。

業(yè)務(wù)挑戰(zhàn)&難點

誠然單輪交互存在著各種問題，但多輪化的改造、尤其是基于大模型的多輪化改造也需要解決以下幾個難點：

多輪狀態(tài)下知識定位的準(zhǔn)確性，多輪交互下如何保證能精準(zhǔn)理解用戶多階段表達(dá)的內(nèi)容并精確定位到知識
大模型生成內(nèi)容風(fēng)險控制，在立項之初，淘天集團內(nèi)尚未有直接將大模型生成內(nèi)容用于C端輸出的應(yīng)用可供參考，因此如何在提升對話多樣性的情況下控制生成風(fēng)險是需要解決的問題。

方案設(shè)計

線上鏈路設(shè)計

我們在風(fēng)控上做了較多的把控，對準(zhǔn)入和準(zhǔn)出都進行了嚴(yán)格的限制，在接入風(fēng)控模型的基礎(chǔ)上，我們還載入了違禁詞庫對輸入文本進行準(zhǔn)入控制。

另外，通過判斷模型輸出不同的標(biāo)記來區(qū)分多輪對話階段，如“[定位問題]xxxxx”，表示模型判斷可以進行知識庫檢索，我們將模型生成結(jié)果進行檢索，并定位到對應(yīng)解決方案，結(jié)束問題溝通。而拒識或澄清，我們將會輸出話術(shù)并與用戶進行進一步確認(rèn)。COT主要發(fā)揮的核心作用是，讓模型學(xué)習(xí)到作為一名淘寶售后客服，回答用戶問題的主要思路和模版。

對齊人工端溝通能力

為了建設(shè)小蜜問題溝通階段的多輪能力，最直接的學(xué)習(xí)目標(biāo)就是對齊人工端小二溝通習(xí)慣。因此我們對人人語聊進行了細(xì)致的處理，使得模型盡可能模仿小二進行問題溝通。

增強模型泛化性

訓(xùn)練初期，我們發(fā)現(xiàn)模型比較容易過擬合，容易生成高頻且?guī)в谢糜X的結(jié)果，泛化性很差；其次，全部使用人工咨詢的SFT指令進行訓(xùn)練，模型的通用指令能力似乎喪失了，也難以對通用知識進行拒識，因此我們混合了更多通用數(shù)據(jù)，對模型進行重新SFT訓(xùn)練，增加模型的泛化能力，避免定位到錯誤的解決方案誤導(dǎo)用戶。

業(yè)務(wù)應(yīng)用

基于大模型的多輪問題定位能力AB期間對于自主對話的部分帶來了了轉(zhuǎn)人工率的下降和滿意度的明顯上升，9月份完成在淘寶小蜜的全量上線。

訴求澄清+信息收集

信息不足反問

? 2.2.2 case服務(wù)軌跡理解及應(yīng)用

業(yè)務(wù)背景

以上我們討論了用戶進線后問題溝通的能力優(yōu)化，然而小蜜的問題預(yù)測或溝通能力始終和人工有差距，其中一個重要的因素就是進線時小蜜沒有任何上下文，而人工小二則可以查閱豐富完整的服務(wù)軌跡信息。

業(yè)務(wù)難點&挑戰(zhàn)

在大模型時代之前，算法側(cè)對于case服務(wù)軌跡的理解也進行了探索并在首頁猜問等場景落地，但受任務(wù)定義、模型框架等方面影響，理解內(nèi)容存在一定的局限性，特別是對于需要進行靈活理解的場景較難適配，導(dǎo)致小蜜對服務(wù)軌跡包含的信息利用不夠充分。

從用戶視角而言，進線后缺乏直接的“被理解”的體感，且在對話中需要重復(fù)描述，說明小蜜的“智能”能力存在提升的空間，從平臺運營視角而言，對于case服務(wù)軌跡理解的不充分，導(dǎo)致較難實現(xiàn)解決方案和轉(zhuǎn)人工策略（如重復(fù)進線場景）的差異化運營。

整體case服務(wù)軌跡能力的架構(gòu)設(shè)計如下，我們先基于BC語聊在未問先答應(yīng)用場景進行了試點。

BC語聊在未問先答場景應(yīng)用

“未問先答”是小蜜推出的新能力，在用戶剛剛進線時，根據(jù)用戶當(dāng)前狀態(tài)，立即推送用戶可能需要的解決方案，更快地幫助用戶路由到問題，減少咨詢成本。

業(yè)務(wù)應(yīng)用

考慮到信息的抽取結(jié)果將會應(yīng)用到下游豐富的大模型對話場景，而抽取枚舉值將會損失豐富的細(xì)節(jié)信息，因此我們考慮讓模型既可以輸出自然語言摘要結(jié)果，也可以輸出對應(yīng)的枚舉值，流程如圖所示：

? 2.2.3 生成式快捷短語

業(yè)務(wù)背景

為了讓小蜜可以更好的定位到用戶的問題，在小蜜整體的交互中，增加了一些以推薦為導(dǎo)向的方法，快捷短語便是其中的一環(huán)。快捷短語的目的是生成單個或多個用戶可能想了解/輸入的內(nèi)容，讓用戶通過點擊基于知識/問題的快捷短語來與小蜜進行交互，在減少用戶輸入成本的同時幫助用戶快速獲取解決方案。

結(jié)合小蜜中逐漸落地的大模型能力，配合小蜜的新的表達(dá)形式，快捷短語也誕生了新的交互形式變化，即生成式快捷短語。

業(yè)務(wù)難點&挑戰(zhàn)

生成式快捷短語的目的是生成用戶可能想要輸入的內(nèi)容，而后用戶可以通過點擊的方式輸入文本，與小蜜進行交互的同時，配合小蜜中的大模型多輪定位等功能，幫助用戶快速定位到需要的解決方案。這就要求快捷短語生成的內(nèi)容具有如下特點：

完整性：可以完整表達(dá)用戶遇到的問題與訴求，幫助用戶快速定位問題；
業(yè)務(wù)相關(guān)性：生成的內(nèi)容有實際的業(yè)務(wù)相關(guān)性，如問題或訴求等相關(guān)業(yè)務(wù)屬性的完整描述。

但是在現(xiàn)實中，用戶并不會經(jīng)常做到“一次性輸入完整內(nèi)容”，而是會有如下特點：

多次/多輪輸入：用戶一般要通過多次內(nèi)容輸入才能把自己的問題與訴求表達(dá)清楚；
同種語義，多種表達(dá)：用戶對于一些詞匯的理解不同，表達(dá)上也不統(tǒng)一；
表達(dá)內(nèi)容無利于定位：用戶的情緒化表達(dá)，以及其他一些敘述，無法幫助用戶推進解決問題。

生成內(nèi)容的要求與實際生活中用戶的輸入有較大的差距，這也給我們帶來了挑戰(zhàn)。

方案設(shè)計

生成式快捷短語的目的是生成用戶可能想要輸入的內(nèi)容，配合小蜜中的大模型多輪定位等功能，推進用戶對話進展的同時獲取解決方案。與之前的綁定知識不同，生成式快捷短語不綁定固定知識，而是讓用戶以對話的形式走大模型多輪定位獲取解決方案。

考慮到大模型的性能問題，實際線上部署的時候，先以前置判別模型進行判別，用以減少大模型調(diào)用量。

基于不同場景下需要展示的內(nèi)容的不同，結(jié)合之前已經(jīng)存在的基于知識/問題的快捷短語，設(shè)計了以下鏈路:

業(yè)務(wù)應(yīng)用

從線上AB效果來看，特定場景下生成式快捷短語相比基于固定候選池的推進式短語點擊率提升明顯，顯著降低了用戶輸入的成本，幫助用戶快速獲取解決方案。

? 2.2.4 多輪追問生成

業(yè)務(wù)背景

傳統(tǒng)的對話機器人設(shè)計分為2種類型，1）每輪咨詢重新定位方案，導(dǎo)致對話隔離感非常強，幾乎沒有多輪對話的體感；2）依賴于多輪劇本，通過運營維護多輪劇本，將一個問題完整的解決掉，但是運營成本和維護成本都非常高。

業(yè)務(wù)挑戰(zhàn)&難點

消費者在小蜜機器人咨詢問題繁多，包含了閑聊、單訴求和多訴求。而每輪訴求之后，消費者通常會針對小蜜當(dāng)前所給出的解決方案進行一步咨詢，咨詢內(nèi)容大概包含以下3種情況：1）對當(dāng)前訴求的進一步描述或者對當(dāng)前答案的進一步詢問；2）表達(dá)情緒上的不滿、催促或者感謝；3）當(dāng)前訴求完結(jié)，跨訴求咨詢其他新問題。因此如何精準(zhǔn)判別消費者的同訴求追問并給出擬人化的合理性回復(fù)是算法面臨的挑戰(zhàn)。

方案設(shè)計

業(yè)務(wù)應(yīng)用

我們在淘寶/天貓平臺小蜜機器人中，上線應(yīng)用了多輪追問大模型生成能力，針對消費者單個訴求完成了更好的多輪對話，降低了對話割裂感，最終降低了轉(zhuǎn)人工率、并提升了滿意度，讓用戶能夠在小蜜獲得更好的對話服務(wù)體驗。

? 2.2.5 基于檢索增強的文檔問答大模型應(yīng)用

業(yè)務(wù)背景

淘寶促銷活動期間，用戶咨詢機器人有關(guān)活動問題的量就會暴漲，為了更好的支撐平臺的活動，給到消費者更好的購物體驗，業(yè)務(wù)運營耗費了大量的成本消化活動、維護活動FAQ。

業(yè)務(wù)挑戰(zhàn)&難點

活動期間基本處于封網(wǎng)狀態(tài)（特別是活動量最大的雙十一），算法很難基于現(xiàn)有樣本重新訓(xùn)練，因此要求算法模型具備較強的ZERO-SHOT能力。

雙十一活動的特點是多樣性高、時效性強，且規(guī)則較為復(fù)雜，如何結(jié)合淘寶的規(guī)則更好的理解消費者的問題，并且給出淺顯易懂的回復(fù)答案是算法面臨的挑戰(zhàn)。

方案設(shè)計

工程鏈路設(shè)計

我們對文檔按段落進行拆分，得到文檔的段落內(nèi)容以及對應(yīng)的各級標(biāo)題。然后對段落內(nèi)容以及各級標(biāo)題分別進行向量化，并保存到向量數(shù)據(jù)庫中。檢索時，我們將用戶的query也進行向量化，然后與向量數(shù)據(jù)庫中的向量進行匹配，搜索最相似的n條文檔段落，最后將這些段落交由大模型進行最終的答案生成。整體流程如下：

文檔索引構(gòu)建可以將文檔轉(zhuǎn)為文檔索引塊（Chunk），主要分為解析（Parsing）和切分（Chunking）兩步：

算法方案

Doc向量化

【SimCSE模型架構(gòu)】基于SimCSE模型結(jié)構(gòu)，最后一層將embedding向量投影到256維。

【效果評估】我們在小蜜數(shù)據(jù)集上對我們的模型進行測試，并與其他開放的模型進行對比。

Doc重排

在進行重排優(yōu)化策略時，我們針對數(shù)據(jù)層、訓(xùn)練層和模型層均進行了針對性實驗及優(yōu)化。

【效果評估】

我們在小蜜自己的重排benchmark數(shù)據(jù)集上評估了模型效果
為了驗證模型的泛化性，我們在開源的數(shù)據(jù)集上也進行了評估，我們的large版本已經(jīng)可以達(dá)到當(dāng)前的SOTA水平。

SFT

【數(shù)據(jù)層】

1. 少量高質(zhì)量的業(yè)務(wù)域問答數(shù)據(jù)+大量的高質(zhì)量通用域問答數(shù)據(jù);2. Role Prompt采用[Human, Assistant]的方式。

【模型層】

1. 基座選擇Qwen7b，文檔問答的prompt都非常長，采用較小的基座來兼容效果并能實際在業(yè)務(wù)落地；2. 更長的context并不會帶來效果上的提升，我們嘗試過8k版本或者自己訓(xùn)練的4k版本，發(fā)現(xiàn)評測效果相比2k沒有帶來明顯的提升。

【訓(xùn)練層】

1. 訓(xùn)練采用全參訓(xùn)練，經(jīng)過我們的多次實驗，7b模型的全參相比lora能取得更好的效果；2. 對于訓(xùn)練的超參，我們發(fā)現(xiàn)對于訓(xùn)練的超參進行業(yè)務(wù)域的微調(diào)帶來的提升并不明顯且成本高。

實際線上流程

業(yè)務(wù)應(yīng)用

我們在淘寶/天貓平臺小蜜中，分別上線應(yīng)用基于FAQ檢索增強的大模型生成和基于文檔檢索增強的大模型生成,通過AB實驗對比，對滿意度和轉(zhuǎn)人工都帶來了正向提升。

2.3 店小蜜&自營小蜜

業(yè)務(wù)背景

店小蜜是一款服務(wù)于消費者、人工客服、訓(xùn)練師和商家運營的全鏈路客服機器人，日承接對話3000萬輪次。

店小蜜零售大模型旨在提高大模型在零售場景的服務(wù)問答場景（包括但不限于商品問答能力、營銷導(dǎo)購能力、商品文案以及圖片生成能力、服務(wù)診斷能力等）以及店鋪運營水平。

以下是用戶在店小蜜的服務(wù)流程

售前商品問答

商品問答是基于商品知識庫、商品詳情頁等數(shù)據(jù)源，來回答消費者提出的商品屬性相關(guān)的問題，這類問題通?？梢越唤o智能機器人處理，節(jié)省售前咨詢?nèi)斯こ杀尽?/h2>
整體鏈路
如圖所示，商品問答大模型整合了多種知識源側(cè)信息，包括商品知識庫、IC庫等，將各個源的信息進行整合形成商品知識文檔作為模型輸入?？紤]到線上RT限制，在將商品知識文檔傳給大模型之前先進行多源商品知識召回，將各個源頭與消費者咨詢最相關(guān)的知識給到大模型，在保證回復(fù)內(nèi)容準(zhǔn)確的同時兼顧回復(fù)的響應(yīng)時間。

商品問答大模型效果

模型能力對比

可以看出，大模型的精準(zhǔn)率、覆蓋率基于小模型分別提升17pt/2pt。從實際消費者問答參評滿意度看，消費者對大模型返回答案的認(rèn)可度更高，大模型也帶來了商品咨詢轉(zhuǎn)化率的提升。

業(yè)務(wù)應(yīng)用

在商品問答場景，大模型的優(yōu)勢主要有：更強的檢索能力、更豐富的外部知識、更強的理解推理能力。詳細(xì)可以見下表的case梳理。

03

總結(jié)

小蜜對話能力全面擁抱大模型，我們也初步看到了LLM在服務(wù)對話領(lǐng)域巨大的應(yīng)用潛力。與此同時，LLM也帶來了算法方法論的完全變革，也涌現(xiàn)了一系列的問題值得我們進一步的探索：

影響LLM業(yè)務(wù)效果的因素比小模型更復(fù)雜：基座模型、Prompt工程、SFT數(shù)據(jù)、訓(xùn)練的Trick，優(yōu)化哪個是最有效的？
在垂直領(lǐng)域，單純依靠無Finetune Prompting無法滿足業(yè)務(wù)效果，我們需要進行一定程度SFT的前提下，我們發(fā)現(xiàn)SFT在LLM上極容易過擬合。那么此時基座的能力和SFT任務(wù)的關(guān)系是什么？我們是應(yīng)該選擇“能力更好的基座”還是“更容易被SFT的基座”？
我們大量的算法工作還是停留在'更換基座->更換SFT數(shù)據(jù)'的循環(huán)中，本質(zhì)是一種“基于LLM的監(jiān)督學(xué)習(xí)”，如何更有機的結(jié)合Prompt工程、SFT、甚至Continue Training打出一套領(lǐng)域落地的組合拳，還沒有清晰的成功路徑。
Agent是否是實現(xiàn)AGI的最近靠譜路徑？我們能否基于Agent架構(gòu)更進一步逼近擬人、更強泛化和業(yè)務(wù)推理能力的客服AI？
....

上面的每一個問題，在LLM時代目前都還是Open Problem，它帶來的既是興奮，也有挑戰(zhàn)，小蜜也將持續(xù)走在LLM業(yè)務(wù)應(yīng)用的最前沿。

作者:智能小蜜團隊

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊一鍵舉報。

小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

智能對話新紀(jì)元：百萬日活對話機器人的LLM落地實踐

? 2.2.1 多輪問題定位

業(yè)務(wù)背景

業(yè)務(wù)挑戰(zhàn)&難點

方案設(shè)計

業(yè)務(wù)應(yīng)用

? 2.2.2 case服務(wù)軌跡理解及應(yīng)用

業(yè)務(wù)背景

業(yè)務(wù)難點&挑戰(zhàn)

BC語聊在未問先答場景應(yīng)用

業(yè)務(wù)應(yīng)用

? 2.2.3 生成式快捷短語

業(yè)務(wù)背景

業(yè)務(wù)難點&挑戰(zhàn)

方案設(shè)計

業(yè)務(wù)應(yīng)用

? 2.2.4 多輪追問生成

業(yè)務(wù)背景

業(yè)務(wù)挑戰(zhàn)&難點

方案設(shè)計

業(yè)務(wù)應(yīng)用

? 2.2.5 基于檢索增強的文檔問答大模型應(yīng)用

業(yè)務(wù)背景

業(yè)務(wù)挑戰(zhàn)&難點

方案設(shè)計

業(yè)務(wù)應(yīng)用

業(yè)務(wù)背景

店小蜜是一款服務(wù)于消費者、人工客服、訓(xùn)練師和商家運營的全鏈路客服機器人，日承接對話3000萬輪次。

店小蜜零售大模型旨在提高大模型在零售場景的服務(wù)問答場景（包括但不限于商品問答能力、營銷導(dǎo)購能力、商品文案以及圖片生成能力、服務(wù)診斷能力等）以及店鋪運營水平。

以下是用戶在店小蜜的服務(wù)流程

售前商品問答

商品問答大模型效果

業(yè)務(wù)應(yīng)用

店小蜜是一款服務(wù)于消費者、人工客服、訓(xùn)練師和商家運營的全鏈路客服機器人，日承接對話3000萬輪次。

店小蜜零售大模型旨在提高大模型在零售場景的服務(wù)問答場景（包括但不限于商品問答能力、營銷導(dǎo)購能力、商品文案以及圖片生成能力、服務(wù)診斷能力等）以及店鋪運營水平。