01 前言 阿里小蜜家族(阿里小蜜、店小蜜、萬象),從2015年發(fā)展至今,已經(jīng)成為了覆蓋淘天P-C(平臺-消費者)、B-C(商家-消費者)、P-B(平臺-商家)全咨詢體系的智能對話機器人,日均接待量級在百萬(阿里小蜜)到千萬(店小蜜)范圍。 作為淘天集團乃至行業(yè)內(nèi)最大體量的對話機器人應(yīng)用之一,阿里小蜜在對話算法能力上持續(xù)探索,在2022年chatgpt爆炸性的誕生之后,我們也加快了擁抱LLM技術(shù)的步伐。技術(shù)飛速發(fā)展,小蜜算法團隊全力投入LLM在客服域的落地應(yīng)用中,以端到端直出的方式,覆蓋了售后小蜜場景的問題定位、SOP方案播放和溝通追問等環(huán)節(jié),以及售前小蜜(自營店/店小蜜商家)的商品問答能力。 02 當(dāng)前落地方案-基于大模型的進化 2.1 從Pipeline到大模型直出,將NLU/DM/NLG通過大模型端到端替換 對于大模型在對話機器人中的業(yè)務(wù)&技術(shù)價值,我們也有過反復(fù)的思考和討論,但我們對LLM在小蜜中應(yīng)用的終極目標(biāo)一直保持不變,也就是用LLM端到端的實現(xiàn)對話生成,這是基于以下的判斷:
2.2 阿里小蜜:分階段、分場景的業(yè)務(wù)覆蓋 我們從業(yè)務(wù)視角將一通消費者的客服咨詢對話拆分為三個階段:問題溝通、SOP操作和方案溝通。 在業(yè)務(wù)分割的基礎(chǔ)上,我們分階段的實現(xiàn)了不同的大模型對話能力(如下圖)。同時針對營銷活動/購買指南等以FAQ/文檔為主的業(yè)務(wù)場景,我們沒有采用多階段方案,而是直接使用了端到端檢索增強的算法來實現(xiàn)對話。 ? 2.2.1 多輪問題定位業(yè)務(wù)背景作為客服機器人,阿里小蜜需要承接用戶表達(dá)的問題并進行理解,進而定位到對應(yīng)的知識或解決方案流程。過去小蜜問題溝通的模式始終沒有跳脫出一問一答的形式,長遠(yuǎn)來源,這樣會導(dǎo)致兩大類問題:
業(yè)務(wù)挑戰(zhàn)&難點誠然單輪交互存在著各種問題,但多輪化的改造、尤其是基于大模型的多輪化改造也需要解決以下幾個難點:
方案設(shè)計
我們在風(fēng)控上做了較多的把控,對準(zhǔn)入和準(zhǔn)出都進行了嚴(yán)格的限制,在接入風(fēng)控模型的基礎(chǔ)上,我們還載入了違禁詞庫對輸入文本進行準(zhǔn)入控制。 另外,通過判斷模型輸出不同的標(biāo)記來區(qū)分多輪對話階段,如“[定位問題]xxxxx”,表示模型判斷可以進行知識庫檢索,我們將模型生成結(jié)果進行檢索,并定位到對應(yīng)解決方案,結(jié)束問題溝通。而拒識或澄清,我們將會輸出話術(shù)并與用戶進行進一步確認(rèn)。COT主要發(fā)揮的核心作用是,讓模型學(xué)習(xí)到作為一名淘寶售后客服,回答用戶問題的主要思路和模版。
為了建設(shè)小蜜問題溝通階段的多輪能力,最直接的學(xué)習(xí)目標(biāo)就是對齊人工端小二溝通習(xí)慣。因此我們對人人語聊進行了細(xì)致的處理,使得模型盡可能模仿小二進行問題溝通。
訓(xùn)練初期,我們發(fā)現(xiàn)模型比較容易過擬合,容易生成高頻且?guī)в谢糜X的結(jié)果,泛化性很差;其次,全部使用人工咨詢的SFT指令進行訓(xùn)練,模型的通用指令能力似乎喪失了,也難以對通用知識進行拒識,因此我們混合了更多通用數(shù)據(jù),對模型進行重新SFT訓(xùn)練,增加模型的泛化能力,避免定位到錯誤的解決方案誤導(dǎo)用戶。 業(yè)務(wù)應(yīng)用基于大模型的多輪問題定位能力AB期間對于自主對話的部分帶來了了轉(zhuǎn)人工率的下降和滿意度的明顯上升,9月份完成在淘寶小蜜的全量上線。 訴求澄清+信息收集 信息不足反問 ? 2.2.2 case服務(wù)軌跡理解及應(yīng)用業(yè)務(wù)背景以上我們討論了用戶進線后問題溝通的能力優(yōu)化,然而小蜜的問題預(yù)測或溝通能力始終和人工有差距,其中一個重要的因素就是進線時小蜜沒有任何上下文,而人工小二則可以查閱豐富完整的服務(wù)軌跡信息。 業(yè)務(wù)難點&挑戰(zhàn)在大模型時代之前,算法側(cè)對于case服務(wù)軌跡的理解也進行了探索并在首頁猜問等場景落地,但受任務(wù)定義、模型框架等方面影響,理解內(nèi)容存在一定的局限性,特別是對于需要進行靈活理解的場景較難適配,導(dǎo)致小蜜對服務(wù)軌跡包含的信息利用不夠充分。 從用戶視角而言,進線后缺乏直接的“被理解”的體感,且在對話中需要重復(fù)描述,說明小蜜的“智能”能力存在提升的空間,從平臺運營視角而言,對于case服務(wù)軌跡理解的不充分,導(dǎo)致較難實現(xiàn)解決方案和轉(zhuǎn)人工策略(如重復(fù)進線場景)的差異化運營。 整體case服務(wù)軌跡能力的架構(gòu)設(shè)計如下,我們先基于BC語聊在未問先答應(yīng)用場景進行了試點。 BC語聊在未問先答場景應(yīng)用“未問先答”是小蜜推出的新能力,在用戶剛剛進線時,根據(jù)用戶當(dāng)前狀態(tài),立即推送用戶可能需要的解決方案,更快地幫助用戶路由到問題,減少咨詢成本。 業(yè)務(wù)應(yīng)用考慮到信息的抽取結(jié)果將會應(yīng)用到下游豐富的大模型對話場景,而抽取枚舉值將會損失豐富的細(xì)節(jié)信息,因此我們考慮讓模型既可以輸出自然語言摘要結(jié)果,也可以輸出對應(yīng)的枚舉值,流程如圖所示: ? 2.2.3 生成式快捷短語業(yè)務(wù)背景為了讓小蜜可以更好的定位到用戶的問題,在小蜜整體的交互中,增加了一些以推薦為導(dǎo)向的方法,快捷短語便是其中的一環(huán)。快捷短語的目的是生成單個或多個用戶可能想了解/輸入的內(nèi)容,讓用戶通過點擊基于知識/問題的快捷短語來與小蜜進行交互,在減少用戶輸入成本的同時幫助用戶快速獲取解決方案。 結(jié)合小蜜中逐漸落地的大模型能力,配合小蜜的新的表達(dá)形式,快捷短語也誕生了新的交互形式變化,即生成式快捷短語。 業(yè)務(wù)難點&挑戰(zhàn)生成式快捷短語的目的是生成用戶可能想要輸入的內(nèi)容,而后用戶可以通過點擊的方式輸入文本,與小蜜進行交互的同時,配合小蜜中的大模型多輪定位等功能, 幫助用戶快速定位到需要的解決方案。這就要求快捷短語生成的內(nèi)容具有如下特點:
但是在現(xiàn)實中,用戶并不會經(jīng)常做到“一次性輸入完整內(nèi)容”,而是會有如下特點:
生成內(nèi)容的要求與實際生活中用戶的輸入有較大的差距,這也給我們帶來了挑戰(zhàn)。 方案設(shè)計生成式快捷短語的目的是生成用戶可能想要輸入的內(nèi)容,配合小蜜中的大模型多輪定位等功能,推進用戶對話進展的同時獲取解決方案。與之前的綁定知識不同,生成式快捷短語不綁定固定知識,而是讓用戶以對話的形式走大模型多輪定位獲取解決方案。 考慮到大模型的性能問題,實際線上部署的時候,先以前置判別模型進行判別,用以減少大模型調(diào)用量。 基于不同場景下需要展示的內(nèi)容的不同,結(jié)合之前已經(jīng)存在的基于知識/問題的快捷短語,設(shè)計了以下鏈路: 業(yè)務(wù)應(yīng)用從線上AB效果來看,特定場景下生成式快捷短語相比基于固定候選池的推進式短語點擊率提升明顯,顯著降低了用戶輸入的成本,幫助用戶快速獲取解決方案。 ? 2.2.4 多輪追問生成業(yè)務(wù)背景傳統(tǒng)的對話機器人設(shè)計分為2種類型,1)每輪咨詢重新定位方案,導(dǎo)致對話隔離感非常強,幾乎沒有多輪對話的體感;2)依賴于多輪劇本,通過運營維護多輪劇本,將一個問題完整的解決掉,但是運營成本和維護成本都非常高。 業(yè)務(wù)挑戰(zhàn)&難點消費者在小蜜機器人咨詢問題繁多,包含了閑聊、單訴求和多訴求。而每輪訴求之后,消費者通常會針對小蜜當(dāng)前所給出的解決方案進行一步咨詢,咨詢內(nèi)容大概包含以下3種情況:1)對當(dāng)前訴求的進一步描述或者對當(dāng)前答案的進一步詢問;2)表達(dá)情緒上的不滿、催促或者感謝;3)當(dāng)前訴求完結(jié),跨訴求咨詢其他新問題。因此如何精準(zhǔn)判別消費者的同訴求追問并給出擬人化的合理性回復(fù)是算法面臨的挑戰(zhàn)。 方案設(shè)計業(yè)務(wù)應(yīng)用我們在淘寶/天貓平臺小蜜機器人中,上線應(yīng)用了多輪追問大模型生成能力,針對消費者單個訴求完成了更好的多輪對話,降低了對話割裂感,最終降低了轉(zhuǎn)人工率、并提升了滿意度,讓用戶能夠在小蜜獲得更好的對話服務(wù)體驗。 ? 2.2.5 基于檢索增強的文檔問答大模型應(yīng)用業(yè)務(wù)背景淘寶促銷活動期間,用戶咨詢機器人有關(guān)活動問題的量就會暴漲,為了更好的支撐平臺的活動,給到消費者更好的購物體驗,業(yè)務(wù)運營耗費了大量的成本消化活動、維護活動FAQ。 業(yè)務(wù)挑戰(zhàn)&難點活動期間基本處于封網(wǎng)狀態(tài)(特別是活動量最大的雙十一),算法很難基于現(xiàn)有樣本重新訓(xùn)練,因此要求算法模型具備較強的ZERO-SHOT能力。 雙十一活動的特點是多樣性高、時效性強,且規(guī)則較為復(fù)雜,如何結(jié)合淘寶的規(guī)則更好的理解消費者的問題,并且給出淺顯易懂的回復(fù)答案是算法面臨的挑戰(zhàn)。 方案設(shè)計
我們對文檔按段落進行拆分,得到文檔的段落內(nèi)容以及對應(yīng)的各級標(biāo)題。然后對段落內(nèi)容以及各級標(biāo)題分別進行向量化,并保存到向量數(shù)據(jù)庫中。檢索時,我們將用戶的query也進行向量化,然后與向量數(shù)據(jù)庫中的向量進行匹配,搜索最相似的n條文檔段落,最后將這些段落交由大模型進行最終的答案生成。整體流程如下: 文檔索引構(gòu)建可以將文檔轉(zhuǎn)為文檔索引塊(Chunk),主要分為解析(Parsing)和切分(Chunking)兩步:
在進行重排優(yōu)化策略時,我們針對數(shù)據(jù)層、訓(xùn)練層和模型層均進行了針對性實驗及優(yōu)化。
【模型層】
【訓(xùn)練層】
業(yè)務(wù)應(yīng)用我們在淘寶/天貓平臺小蜜中,分別上線應(yīng)用基于FAQ檢索增強的大模型生成和基于文檔檢索增強的大模型生成,通過AB實驗對比,對滿意度和轉(zhuǎn)人工都帶來了正向提升。 2.3 店小蜜&自營小蜜 業(yè)務(wù)背景店小蜜是一款服務(wù)于消費者、人工客服、訓(xùn)練師和商家運營的全鏈路客服機器人,日承接對話3000萬輪次。店小蜜零售大模型旨在提高大模型在零售場景的服務(wù)問答場景(包括但不限于商品問答能力、營銷導(dǎo)購能力、商品文案以及圖片生成能力、服務(wù)診斷能力等)以及店鋪運營水平。以下是用戶在店小蜜的服務(wù)流程售前商品問答商品問答是基于商品知識庫、商品詳情頁等數(shù)據(jù)源,來回答消費者提出的商品屬性相關(guān)的問題,這類問題通??梢越唤o智能機器人處理,節(jié)省售前咨詢?nèi)斯こ杀尽?/h2>如圖所示,商品問答大模型整合了多種知識源側(cè)信息,包括商品知識庫、IC庫等,將各個源的信息進行整合形成商品知識文檔作為模型輸入??紤]到線上RT限制,在將商品知識文檔傳給大模型之前先進行多源商品知識召回,將各個源頭與消費者咨詢最相關(guān)的知識給到大模型,在保證回復(fù)內(nèi)容準(zhǔn)確的同時兼顧回復(fù)的響應(yīng)時間。 商品問答大模型效果模型能力對比 可以看出,大模型的精準(zhǔn)率、覆蓋率基于小模型分別提升17pt/2pt。從實際消費者問答參評滿意度看,消費者對大模型返回答案的認(rèn)可度更高,大模型也帶來了商品咨詢轉(zhuǎn)化率的提升。 業(yè)務(wù)應(yīng)用在商品問答場景,大模型的優(yōu)勢主要有:更強的檢索能力、更豐富的外部知識、更強的理解推理能力。詳細(xì)可以見下表的case梳理。 03 總結(jié) 小蜜對話能力全面擁抱大模型,我們也初步看到了LLM在服務(wù)對話領(lǐng)域巨大的應(yīng)用潛力。與此同時,LLM也帶來了算法方法論的完全變革,也涌現(xiàn)了一系列的問題值得我們進一步的探索:
上面的每一個問題,在LLM時代目前都還是Open Problem,它帶來的既是興奮,也有挑戰(zhàn),小蜜也將持續(xù)走在LLM業(yè)務(wù)應(yīng)用的最前沿。 作者:智能小蜜團隊 |
|