歡迎來到AI產(chǎn)品經(jīng)理從0到1研習(xí)之旅。讓我們緊接前文,繼續(xù)探討大模型在搜索領(lǐng)域的應(yīng)用情況。 在繼續(xù)討論大模型+搜索之前,我想有必要對傳統(tǒng)搜索相關(guān)的概念和原理再稍作說明。畢竟大模型是加持、而非替代傳統(tǒng)搜索。 搜索引擎使用爬蟲程序遍歷互聯(lián)網(wǎng),訪問網(wǎng)站并讀取頁面內(nèi)容,類似于一個(gè)自動化的瀏覽器。例如,當(dāng)爬蟲訪問一個(gè)新聞網(wǎng)站時(shí),它會下載并存儲文章的內(nèi)容、圖片、以及其他媒體信息。 索引是搜索引擎對爬取的網(wǎng)頁內(nèi)容進(jìn)行分類和存儲的過程,以便快速檢索。假設(shè)爬蟲抓取了一個(gè)關(guān)于“全球變暖”的文章,搜索引擎會將文章中的關(guān)鍵信息(如標(biāo)題、正文、關(guān)鍵詞)提取出來并加入到索引數(shù)據(jù)庫中。當(dāng)用戶在搜索引擎中鍵入查詢時(shí),搜索引擎并不是直接在 Internet 上進(jìn)行搜索,而是在搜索它們已經(jīng)儲存的網(wǎng)頁索引。所以如果我們的網(wǎng)頁沒有在索引并收錄,那么用戶就不會發(fā)現(xiàn)它。簡化的倒排索引表如下所示:搜索引擎通過排名算法確定哪些網(wǎng)頁最相關(guān)。例如,當(dāng)用戶查詢“全球變暖影響”時(shí),(谷歌)搜索引擎會評估索引中所有相關(guān)頁面的質(zhì)量和相關(guān)性,可能會根據(jù)PageRank算法(考慮網(wǎng)頁鏈接的數(shù)量和質(zhì)量)給予高權(quán)威網(wǎng)站更高的排名。 搜索引擎應(yīng)用NLP技術(shù)以更深入地理解和處理用戶查詢和網(wǎng)頁內(nèi)容。- 分詞(Tokenization):將查詢“全球變暖的影響”拆分為單獨(dú)的詞匯:“全球”、“變暖”、“的”、“影響”。
- 詞性標(biāo)注:識別每個(gè)詞匯的詞性,如“全球”和“變暖”為名詞,“影響”可以是名詞或動詞。
- 語義分析:理解查詢的整體意義,識別“全球變暖”作為一個(gè)專有名詞,而非單獨(dú)的詞匯。
- 實(shí)體識別(NER):識別“全球變暖”為一個(gè)特定的環(huán)境問題實(shí)體。
- 依存關(guān)系解析:解析查詢中詞匯之間的依存關(guān)系,理解“影響”是查詢的核心動作,與“全球變暖”有直接關(guān)聯(lián)。
- 情感分析:在處理用戶對于某些議題(如電影評價(jià))的查詢時(shí),識別正面或負(fù)面的情感傾向。
根據(jù)排名算法,搜索引擎展示了一系列關(guān)于“全球變暖影響”的網(wǎng)頁鏈接,可能還會包括特定的知識圖譜、新聞?wù)?,幫助用戶快速獲取信息。搜索引擎會考慮用戶的地理位置、搜索歷史等,提供個(gè)性化的搜索結(jié)果。比如,在查詢“最近的氣候變化新聞”時(shí),來自不同地區(qū)的用戶可能會看到他們地區(qū)內(nèi)相關(guān)新聞的鏈接。通過這些步驟和技術(shù),傳統(tǒng)搜索引擎能夠高效、準(zhǔn)確地幫助用戶找到所需信息。這些概念和技術(shù)的深入理解對于開發(fā)和優(yōu)化搜索引擎及相關(guān)產(chǎn)品具有重要意義。更多相關(guān)內(nèi)容,可參見此前的文章《第3章 智能搜索技術(shù)》。 傳統(tǒng)搜索引擎是從已有的信息中獲取答案,顯示的是一系列的網(wǎng)頁鏈接,用戶需要打開每一個(gè)鏈接進(jìn)行瀏覽,而LLM、AIGC與搜索結(jié)合,能夠更準(zhǔn)確了解用戶意圖,根據(jù)需求整合內(nèi)容提供生成式的摘要、答案、建議,能夠提供更高質(zhì)量、更多樣化的信息內(nèi)容,更高效的信息收集方式: 隨著大型語言模型(LLM)技術(shù)的快速發(fā)展和應(yīng)用,我們見證了一系列創(chuàng)新的LLM集成搜索產(chǎn)品的出現(xiàn),例如New Bing新必應(yīng)(已更名為Copilot)就是一個(gè)典型例子。畢竟,作為OpenAI的重要股東、合作伙伴,微軟早早地就在Bing搜索中上線了基于GPT模型的這個(gè)搜索+AI的產(chǎn)品。2023年2月初,微軟推出了新版搜索引擎必應(yīng),其突出功能是其人工智能聊天機(jī)器人,該機(jī)器人由OpenAI的GPT-4提供動力(但做了一些調(diào)整和改進(jìn))。在推出時(shí),人工智能聊天機(jī)器人被稱為Bing Chat。早期它還叫“新必應(yīng)”時(shí),我必須安裝開發(fā)版的edge瀏覽器才能體驗(yàn): 然而,在去年11月的微軟Ignite活動中,微軟決定重新命名其聊天機(jī)器人,并將其稱為Copilot。 現(xiàn)在更強(qiáng)的copilot預(yù)覽版(不只是搜索,而是一個(gè)智能助手)已經(jīng)在windows操作系統(tǒng)的筆記本上可用了: 這是我在寫這篇文章時(shí),通過瀏覽器入口(https://copilot.microsoft.com/)讓它做的自我介紹:
新必應(yīng)可謂開創(chuàng)了搜索引擎產(chǎn)品從“傳統(tǒng)檢索模式”向“對話式搜索和生成模式”的轉(zhuǎn)變。用戶可以獲得更體系化、更具邏輯性、更個(gè)性化的答案。 使用Copilot,對話體驗(yàn)增強(qiáng)了現(xiàn)有的 Bing 體驗(yàn),為用戶提供基于大語言模型技術(shù)的新型自然語言搜索界面。Copilot 用于形成答案的來源源自與主網(wǎng)絡(luò)搜索結(jié)果頁面相同的第三方搜索結(jié)果排名——由于聊天機(jī)器人連接到互聯(lián)網(wǎng),它可以為您提供最新信息,這是ChatGPT免費(fèi)版本所沒有的另一項(xiàng)功能。這些結(jié)果清楚地顯示給用戶,使他們有機(jī)會通過訪問第三方網(wǎng)站進(jìn)行更深入的研究。根據(jù)用戶的查詢或提示,模型還可以生成有助于激發(fā)用戶創(chuàng)造力的輸出。除了搜索本身,它和ChatGPT這樣的聊天機(jī)器人也有不少相似之處(畢竟底層模型一樣),輸出可以作為詩歌、故事、代碼、文章、歌曲或任何其他可以用自然語言或圖像表達(dá)的內(nèi)容的靈感,具體取決于用戶請求的性質(zhì)。 微軟于2024年3月進(jìn)行的最新升級意味著免費(fèi)版本的Copilot運(yùn)行在GPT-4 Turbo上(由GPT-4升級而來,可以認(rèn)為是更先進(jìn)的模型),這是OpenAI最先進(jìn)的LLM。 所以,如果想要不開通ChatGPT Plus的同時(shí)又能體驗(yàn)到最新的GPT-4能力,這毫無疑問是非常棒的選擇! Bing 有時(shí)會在 Bing 主搜索結(jié)果頁面的頂部顯示 Copilot 生成的匯總結(jié)果以響應(yīng)用戶查詢,從而使搜索體驗(yàn)更加輕松快捷。用戶仍然可以在頁面下部找到傳統(tǒng)的搜索結(jié)果布局。 技術(shù)創(chuàng)新的背后:Prometheus 在2021年的時(shí)候,微軟Search & AI團(tuán)隊(duì)就開始考慮搜索技術(shù)的未來,認(rèn)為通過應(yīng)用深度學(xué)習(xí)模型,可以使搜索變得更加現(xiàn)代化和直觀,從而顯著改善用戶體驗(yàn)。隨著微軟與OpenAI的合作,在2022年夏天接觸到了下一代GPT模型,這一模型的能力遠(yuǎn)超過了GPT-3.5,并且在合成、總結(jié)、對話和創(chuàng)造方面更為強(qiáng)大。 看到這個(gè)新模型,微軟開始探索如何將GPT功能集成到Bing搜索產(chǎn)品中,這樣就可以為任何查詢提供更準(zhǔn)確、完整的搜索結(jié)果,包括長、復(fù)雜、自然的查詢。 新的GPT模型代表了大型語言模型(LLM)的突破,但與其他LLM一樣,它是用截止給定時(shí)間點(diǎn)的數(shù)據(jù)進(jìn)行訓(xùn)練的,因此微軟認(rèn)為通過將其與Bing后端的功能相結(jié)合,可以使用戶體驗(yàn)更豐富、更相關(guān)、更準(zhǔn)確。 為此,微軟開發(fā)了一種其稱之為Prometheus(普羅米修斯)的專有技術(shù),這是同類人工智能模型中的第一個(gè),它將新鮮全面的必應(yīng)指數(shù)、排名和答案結(jié)果與OpenAI最先進(jìn)的GPT模型的創(chuàng)造性推理能力相結(jié)合。Prometheus利用Bing和GPT的強(qiáng)大功能,通過名為Bing Orchestrator的組件迭代生成一組內(nèi)部查詢,旨在為給定對話上下文中的用戶查詢提供準(zhǔn)確而豐富的答案。所有這些都在幾毫秒內(nèi)完成。我們將普羅米修斯生成的這個(gè)答案稱為聊天答案。 選擇相關(guān)的內(nèi)部查詢并利用各自的必應(yīng)搜索結(jié)果是普羅米修斯的一個(gè)關(guān)鍵組成部分,因?yàn)樗鼮槟P吞峁┝讼嚓P(guān)和新鮮的信息,使其能夠回答最近的問題并減少不準(zhǔn)確之處——這種方法被稱為基礎(chǔ)。換言之,模型對Bing提供的數(shù)據(jù)進(jìn)行推理,因此它通過Bing Orchestrator以Bing數(shù)據(jù)為基礎(chǔ)。下圖展示了普羅米修斯的工作過程: 最后一步是普羅米修斯將天氣、股票、體育、新聞等相關(guān)的必應(yīng)搜索答案附加到聊天答案中,以提供更豐富、更吸引人的用戶體驗(yàn),從而進(jìn)一步利用必應(yīng)的力量。得益于必應(yīng)的基礎(chǔ)技術(shù),普羅米修斯還能夠?qū)⒁募傻搅奶齑鸢傅木渥又校员阌脩艨梢暂p松點(diǎn)擊訪問這些來源并驗(yàn)證信息。向這些來源發(fā)送流量對健康的網(wǎng)絡(luò)生態(tài)系統(tǒng)很重要,也是微軟Bing的首要目標(biāo)之一。 雖然 Prometheus 是一項(xiàng)卓越的、開創(chuàng)性的基于人工智能的創(chuàng)新,但從用戶體驗(yàn)的角度來看,彼時(shí)Search&AI團(tuán)隊(duì)仍然不清楚如何將其功能集成到 Bing 中。主要有兩種觀點(diǎn): 團(tuán)隊(duì)中的一些人認(rèn)為搜索是一種根深蒂固的習(xí)慣,需要保持用戶體驗(yàn)像今天的網(wǎng)絡(luò)搜索一樣,只需在主用戶體驗(yàn)上添加由普羅米修斯支持的聊天答案即可。就像任何其他答案一樣,聊天答案將根據(jù)其與查詢的相關(guān)性贏得一席之地。 Bing 的其他人認(rèn)為,這是一個(gè)將搜索范式從經(jīng)典網(wǎng)絡(luò)和答案結(jié)果轉(zhuǎn)變?yōu)樾碌慕换ナ?、基于聊天的搜索方式的機(jī)會。
提倡傳統(tǒng)搜索的團(tuán)隊(duì)通常使用導(dǎo)航查詢來捍衛(wèi)自己的觀點(diǎn),而推動對話方法的團(tuán)隊(duì)將呈現(xiàn)類似研究的搜索會話,例如購物或旅行。下圖可以表達(dá)兩者之間的場景差異: 很明顯,一些查詢場景在傳統(tǒng)或搜索模式下會表現(xiàn)更好,而另一些查詢在對話或聊天模式下會表現(xiàn)更好。此外,根據(jù)查詢,某些用戶可能更喜歡其中一種。因此,理想的 Bing 搜索產(chǎn)品需要根據(jù)用戶的意圖和偏好在搜索和聊天模式之間平滑轉(zhuǎn)換。經(jīng)過多次迭代,微軟開發(fā)了一種新的用戶體驗(yàn),將搜索和聊天統(tǒng)一在一個(gè)界面中,用戶可以通過單擊頁面中的用戶體驗(yàn)元素,或者簡單地滾動或滑動來輕松地來回切換上和下。該產(chǎn)品或用戶體驗(yàn)創(chuàng)新可以說與普羅米修斯技術(shù)一樣重要,以確保人們能夠以直觀的方式充分發(fā)揮該產(chǎn)品的潛力。下面的視頻展示了旅行搜索會話中從搜索到聊天以及從聊天到搜索的平穩(wěn)過渡。因此,新必應(yīng)的用戶將獲得更完整、更符合上下文的答案。時(shí)隔約3個(gè)月(2023年5月7日),百度對標(biāo)微軟的New Bing,基于自家的“文心一言”,開始小范圍公測生成式AI搜索產(chǎn)品“AI對話”(又名“搜索AI伙伴”):并開啟了對百度搜索功能的“重構(gòu)”。在 2023 百度世界大會上,百度搜索完成了進(jìn)一步的升級。李彥宏現(xiàn)場宣布,升級后的百度搜索將擁有「極致滿足」的生成能力——在搜索框里輸入問題,搜索可以不再是給出鏈接,而是直接生成一個(gè)最好的答案。此外,百度搜索還將增加幫助用戶更好表達(dá)的「多輪交互」能力,和更能滿足用戶內(nèi)容需求的「推薦激發(fā)」功能。百度搜索面臨著多樣化的問答場景,其答案獲取方式同樣多元,例如通過信息提取技術(shù)從百科或網(wǎng)頁獲取知識,構(gòu)建知識圖譜以提取答案;或是通過閱讀理解直接從網(wǎng)頁文本中抽取答案;還可以解析半結(jié)構(gòu)化數(shù)據(jù)如表格,將信息轉(zhuǎn)化為更加結(jié)構(gòu)化的形式進(jìn)行展示,這不僅限于文本內(nèi)容,也涵蓋視頻內(nèi)容的解析和提取。在某些復(fù)雜的搜索場景中,如下圖所示,傳統(tǒng)的抽取式答案往往過于冗長,用戶難以快速捕捉到核心信息。這就需要采用生成技術(shù),對答案進(jìn)行深入的壓縮與總結(jié),以便用戶能迅速把握答案的關(guān)鍵點(diǎn),提高信息獲取效率。此外,對于從單一文章中提取的答案可能不夠全面,因此有必要從多個(gè)網(wǎng)頁中整合答案,并明確標(biāo)注答案來源,使用戶能夠清晰地識別信息的出處,如下圖所示。然而,直接利用大型語言模型進(jìn)行問答仍面臨幾個(gè)挑戰(zhàn):- 大模型難以覆蓋所有領(lǐng)域的知識,對于某些較為冷門的信息可能存在誤解或不了解的情況。
- 大模型中的知識更新滯后,對新興知識的反應(yīng)不夠敏感。
- 大模型生成的答案難以驗(yàn)證,當(dāng)前用戶對于模型直接生成答案的可信度較低。
針對這些挑戰(zhàn),百度設(shè)計(jì)了一種檢索增強(qiáng)生成(RAG)方案,已在百度搜索中實(shí)施。該方案通過結(jié)合搜索引擎檢索到的相關(guān)信息,有效緩解大模型可能出現(xiàn)的偏差,從而提高答案的準(zhǔn)確性、及時(shí)性和可信度。整個(gè)流程分為以下幾個(gè)步驟:- 答案抽取階段:從文章中提取關(guān)鍵信息,減少生成模型的處理負(fù)擔(dān);
- prompt組成階段:根據(jù)檢索到的信息構(gòu)建問題回答,并在答案中明確標(biāo)出信息來源;
- 答案生成階段:將prompt輸入到大模型中,生成最終的搜索結(jié)果。
如下圖所示,右側(cè)的答案綜合了多篇文章的信息,并明確標(biāo)注了參考來源,這正是我們希望提供給用戶的答案類型。針對問答/檢索場景,其實(shí)百度還做了場景化的大模型精調(diào)。如下圖所示,其中前兩個(gè)階段與目前流行的生成模型訓(xùn)練方法相似,而后兩個(gè)階段則針對檢索增強(qiáng)生成問答場景進(jìn)行了特別的優(yōu)化和調(diào)整。在第一階段,即通用預(yù)訓(xùn)練階段,利用廣泛的網(wǎng)絡(luò)文本資料及特定領(lǐng)域的內(nèi)容,如書籍、表格和對話等,來構(gòu)建一個(gè)具有通用知識基礎(chǔ)的預(yù)訓(xùn)練模型。進(jìn)入第二階段,對模型進(jìn)行指令微調(diào),提供一系列基本的指令樣本,以增強(qiáng)模型對指令的理解和響應(yīng)能力。第三階段是標(biāo)注業(yè)務(wù)指令微調(diào),通過引入針對搜索問答場景中的復(fù)雜問題組織和處理的具體指令,進(jìn)一步優(yōu)化模型以適應(yīng)這一特定應(yīng)用場景。最后的第四階段,則是基于用戶互動反饋進(jìn)行的細(xì)致微調(diào)。在這個(gè)階段,百度團(tuán)隊(duì)通過分析用戶的行為反饋來調(diào)整模型,同時(shí)采用強(qiáng)化學(xué)習(xí)等先進(jìn)方法,不斷提升答案生成的準(zhǔn)確性和相關(guān)性。通過這四個(gè)階段的逐步深入,其目標(biāo)是構(gòu)建一個(gè)不僅理解廣泛通用知識,而且能夠精準(zhǔn)響應(yīng)搜索問答需求的高效能大模型。面對搜索業(yè)務(wù)場景中復(fù)雜的指令挑戰(zhàn),百度還探索了如何讓生成模型準(zhǔn)確理解和執(zhí)行這些要求。直接向模型輸入大量復(fù)雜指令樣本的方法,并不總是能達(dá)到最優(yōu)的學(xué)習(xí)效果,有時(shí)候反而會影響模型的泛化能力,降低其性能。因此,其引入了思維鏈(Chain of Thought,CoT)的概念,并提出了一種基于指令拆解的學(xué)習(xí)方法來處理檢索生成場景下的復(fù)雜指令。這種方法將復(fù)雜的指令分解為幾個(gè)簡單步驟來逐步處理:第一步:從搜索結(jié)果中篩選出能夠回答問題的內(nèi)容; 第二步:依據(jù)篩選的內(nèi)容,組織并生成答案; 第三步:將答案編號,并明確標(biāo)出各自的參考來源。 通過將一個(gè)復(fù)雜指令分解為多個(gè)易于理解的小步驟,我們使模型專注于首先學(xué)習(xí)和掌握這些簡化的指令。這種方法不僅減少了對大量復(fù)雜指令樣本的依賴,而且有助于提升模型在處理實(shí)際復(fù)雜場景時(shí)的效果和準(zhǔn)確性。我有印象曾看到過官方分享的對應(yīng)prompt設(shè)計(jì),但是現(xiàn)在沒能找到不過可以結(jié)合Bing的情況推斷,也許是這樣設(shè)計(jì)的(歡迎大佬們在評論區(qū)指正):用戶的原始查詢請求是:<user query>
基于提供的搜索結(jié)果和相應(yīng)鏈接: 1. 搜索結(jié)果a,鏈接:url1 2. 搜索結(jié)果b,鏈接:url2 3. 搜索結(jié)果c,鏈接:url3 ... n. 搜索結(jié)果n,鏈接:urln
請完成以下任務(wù): 首先,根據(jù)這些搜索結(jié)果,生成一個(gè)連貫的文本,詳細(xì)介紹[查詢主題]。在文本中,針對每個(gè)關(guān)鍵點(diǎn)或信息,使用數(shù)字編號(如1、2、3等)來標(biāo)注其對應(yīng)的參考來源。 其次,請?jiān)谖谋局羞m當(dāng)位置引入?yún)⒖紒碓淳幪枺灾该餍畔⒌某鎏?。例如,如果某一信息點(diǎn)主要基于搜索結(jié)果a和搜索結(jié)果c,相應(yīng)地在該信息點(diǎn)后標(biāo)注編號'1’和'3’。 最后,文本結(jié)尾處,請?zhí)峁┮粋€(gè)參考來源列表,列出所有引用的參考來源主域名和編號,但不需要詳細(xì)鏈接。確保參考來源列表的順序與文中標(biāo)注的編號相匹配。
生成文本的示例結(jié)構(gòu)應(yīng)如下: '百度文心一言的一個(gè)重要應(yīng)用是百度AI搜索,這是一個(gè)全面開放的人工智能搜索引擎2。[接下來的文本]...如果你有任何其他問題,歡迎隨時(shí)向我提問!了解詳細(xì)信息:1.baidu.com; 2.zhuanlan.zhihu.com; 3.zhuanlan.zhihu.com。'
請注意,將參考來源的完整鏈接簡化為主域名,并在文末提供詳細(xì)的參考來源列表。'
當(dāng)然,實(shí)際的prompt肯定要比這個(gè)復(fù)雜,因?yàn)槌宋谋舅阉?,如前文所述還有圖片搜索、視頻搜索等場景,肯定要結(jié)合不同的意圖差異化設(shè)計(jì)。不過有點(diǎn)奇怪的是,原來在百度搜索界面能看到的“AI對話”入口現(xiàn)在找不到了,具體出于何種考慮我還不得而知:360AI搜索,新一代智能答案引擎,值得信賴的智能搜索伙伴,為復(fù)雜搜索提供專業(yè)支持,解鎖更相關(guān)、更全面的答案。AI對用戶提問進(jìn)行精準(zhǔn)語義分析,并通過追問獲取更多有價(jià)值信息,將問題拆分為多組關(guān)鍵詞后再進(jìn)行搜索引擎檢索,深度閱讀網(wǎng)頁內(nèi)容,最終呈現(xiàn)邏輯清晰、準(zhǔn)確無誤的答案。
360AI搜索是3月份正式上線的,當(dāng)時(shí)我并沒有第一時(shí)間去體驗(yàn),只是從網(wǎng)友們的使用評價(jià)來看,似乎都還覺得不錯:
通過so.360.com就可以體驗(yàn)到。不過為了更全面地感受,在寫這篇文章時(shí),我還是下載了360AI瀏覽器,然后讓它介紹自己:除了有上面提到的微軟Bing和百度搜索類似的總結(jié)生成文本+鏈接出處之外,還是有點(diǎn)新東西的:例如對答案進(jìn)行改寫: 自動生成腦圖: 相關(guān)內(nèi)容和參考鏈接的更詳細(xì)的羅列:
周鴻祎提到,搜索依舊是用戶的剛性需求,但是目前的搜索有幾個(gè)問題:第一,搜索關(guān)鍵詞需要很準(zhǔn)確,如果關(guān)鍵詞不準(zhǔn)確,出來的結(jié)果會非常不同。第二,搜索結(jié)果需要一個(gè)個(gè)點(diǎn)擊,在無數(shù)個(gè)鏈接里找到需要的結(jié)果。第三,需要用戶自己對搜索結(jié)果歸納總結(jié)。“大模型最先顛覆的應(yīng)該是搜索,因?yàn)樗阉鲝纳鲜兰o(jì)90年代Google問世到現(xiàn)在沒有任何變化,一樣的配方,一樣的味道,一樣的搜索框。而60%的用戶在搜索時(shí)其實(shí)是在找“答案?!敝茗櫟t說:“有了AI加持,搜索就可以變成一個(gè)個(gè)人智能助理?!?/span>當(dāng)用戶在360AI搜索中輸入問題時(shí),會觸發(fā)一系列復(fù)雜的處理流程來生成答案。首先,360大模型會對問題進(jìn)行分析,如果發(fā)現(xiàn)問題存在歧義或缺少關(guān)鍵信息,它會主動向用戶請求澄清或補(bǔ)充缺失的信息。大模型將復(fù)雜的搜索問題分解為多個(gè)覆蓋不同方向的關(guān)鍵詞。這些關(guān)鍵詞將通過360搜索在數(shù)百萬個(gè)網(wǎng)頁中進(jìn)行檢索,并根據(jù)用戶的問題進(jìn)行重新匹配排序。接下來,360AI搜索會從與用戶問題匹配的幾十個(gè)網(wǎng)頁中提取內(nèi)容。然后,根據(jù)用戶的問題,生成邏輯清晰、有理有據(jù)、準(zhǔn)確無誤的答案。在用戶提問后,AI將進(jìn)行語義分析并追問以補(bǔ)充更多信息。同時(shí),AI會將問題拆分為多組關(guān)鍵詞進(jìn)行搜索引擎檢索,深度閱讀海量網(wǎng)頁內(nèi)容,生成答案。 不過……我發(fā)現(xiàn)一個(gè)問題,如果我想直接獲得特定的官網(wǎng)鏈接,用360AI搜索反而不符合我的預(yù)期了。。。你看上面2張圖,我愣是沒找到……于是又只能這樣了:巧了不是!在前面所分享的微軟團(tuán)隊(duì)關(guān)于傳統(tǒng)搜索VS對話搜索場景的內(nèi)部“2個(gè)流派”的不同意見中,也就是本來就是意圖非常明確(我知道我想要什么),反而是傳統(tǒng)搜索會更直接、有效:順帶手又試了下智譜的AI搜索,還行:
還有百度的,鏈接對了,回答得有點(diǎn)問題:
回歸360AI搜索本身,根據(jù)周鴻祎的自述,其實(shí)360AI搜索的背后用到了不同的5個(gè)小模型進(jìn)行合作分工,包括搜索、翻譯、閱讀理解、腦圖生成等(嘿嘿,這不又像是多Agents協(xié)作的思路了嘛),每個(gè)小模型都只是百億級別參數(shù)的,在成本、速度上都比較“感人”,遠(yuǎn)遠(yuǎn)好于千億級別的大模型。用場景來驅(qū)動設(shè)計(jì)、推動垂直大模型的應(yīng)用。Perplexity自稱為“世界上首個(gè)對話式搜索引擎”,核心使命是挑戰(zhàn)谷歌在搜索引擎領(lǐng)域的主導(dǎo)地位。Perplexity于2022年8月成立,獲OpenAI、Meta內(nèi)部AI負(fù)責(zé)人等注資,并未研發(fā)自己的大語言模型,而是選擇GPT等大語言模型的接口做一些微調(diào),旨在用AI技術(shù)打造一個(gè)沒有廣告的“谷歌搜索”。Perplexity 就像一個(gè)非常聰明的朋友,可以快速地為你從互聯(lián)網(wǎng)上查找和總結(jié)信息。當(dāng)你問它一個(gè)問題時(shí),Perplexity 不會像常規(guī)搜索引擎那樣給你一個(gè)鏈接列表來進(jìn)行排序,而是使用先進(jìn)的人工智能來準(zhǔn)確理解你所問的內(nèi)容。然后,它會搜索大量網(wǎng)頁和文章,以提取最相關(guān)的信息。但這是真正酷的部分 - Perplexity 將所有信息整合到一個(gè)用簡單語言編寫的清晰、簡潔的答案中,就好像它正在與您進(jìn)行對話一樣。假設(shè)您問“瑜伽對健康有什么好處?” Perplexity 將掃描權(quán)威的健康和健身網(wǎng)站、醫(yī)學(xué)期刊、瑜伽博客等,并將關(guān)鍵事實(shí)編譯成有用的概述,并引用其使用的來源。答案旨在全面且易于理解。“Perplexity 的信念是,搜索信息應(yīng)該是一種簡單、高效的體驗(yàn),不受廣告驅(qū)動模式的影響?!?/p> 不過這并不是第一次有新的搜索引擎試圖使用類似的策略來取代谷歌。Neeva 是一款于 2019 年推出的無廣告引擎,推出后不久月活躍用戶數(shù)就增長到 50 萬,但由于難以獲取用戶而最終于 2022 年關(guān)閉。- 生成的每一句話都附有引用鏈接,在保證可靠性的同時(shí)便于用戶溯源或深入研究。
這本質(zhì)上是在“標(biāo)識可靠性”,用戶可以自行溯源、判斷。
- 除了回答問題外,Perplexity還允許用戶提出后續(xù)問題、搜索視頻、甚至生成圖像等等,便于使用。
- 自定義您的 AI 配置文件以調(diào)整語言、輸出格式和語氣。
學(xué)生可以用它來幫助家庭作業(yè)和研究項(xiàng)目。專業(yè)人士可以隨時(shí)了解行業(yè)趨勢、發(fā)現(xiàn)新想法并創(chuàng)建內(nèi)容。它還可以幫助其他人了解新主題、了解時(shí)事并獲得日常問題的答案。它是一個(gè)強(qiáng)大的資源,提供跨領(lǐng)域的準(zhǔn)確和最新信息。當(dāng)然,還有很多其他的AI大模型+搜索產(chǎn)品/工具已經(jīng)面世,例如:智譜清言的AI搜索(原高級聯(lián)網(wǎng))↓ 谷歌的搜索生成體驗(yàn)(Search Generative Experience,SGE)↓大家可以根據(jù)自己的興趣自行研究,鄙人精力有限就不一一展開了。類似Perplexity 這樣的搜索工具代表了我們與信息交互方式的范式轉(zhuǎn)變。它使用戶能夠輕松找到答案,探索新的可能性,并增強(qiáng)他們對周圍世界的理解。通過擁抱人工智能驅(qū)動的創(chuàng)新并優(yōu)先考慮用戶體驗(yàn),它們有望改變搜索格局并開創(chuàng)知識發(fā)現(xiàn)的新時(shí)代。不過,盡管前景光明,但目前大模型+搜索無疑是一個(gè)充滿潛力和挑戰(zhàn)的領(lǐng)域。我們可以看到大模型與搜索結(jié)合的嘗試雖然邁出了第一步,但離真正引發(fā)用戶和市場廣泛認(rèn)知還有較大差距:- 當(dāng)前大模型+搜索的嘗試缺乏從0到1的產(chǎn)品形態(tài)突破,這限制了其在用戶心中的影響力和吸引力。未來的發(fā)展需要更多的創(chuàng)新思維,不僅僅是在現(xiàn)有產(chǎn)品上的增強(qiáng),而是創(chuàng)造出全新的用戶體驗(yàn)和交互模式。
- 大模型對搜索體驗(yàn)的提升在普通用戶中的感知不明顯,主要還是作為專業(yè)工具存在。要想在更廣泛的用戶群體中取得成功,就需要強(qiáng)化大模型在提高搜索準(zhǔn)確性、響應(yīng)速度和交互自然性方面的應(yīng)用,讓用戶真正感受到搜索體驗(yàn)的質(zhì)的飛躍。
- 大模型+搜索的商業(yè)化路徑尚不明晰。未來的探索需要在如何更好地整合廣告、個(gè)性化推薦等商業(yè)模式與大模型技術(shù)之間找到新的平衡點(diǎn)。
以上,就是關(guān)于大模型+搜索的應(yīng)用研習(xí)分享。 本期到此結(jié)束。 再見
如果你覺得我的分享還不錯或者對你有幫助,不妨來個(gè)一鍵N連:點(diǎn)贊+在看+分享+關(guān)注。 也歡迎你在留言區(qū)與我互動。 參考資料:
https://www./articles/2023-10-30-6 https://mp.weixin.qq.com/s/cTfkanfqJLqxKvbIIKL2xg https://www./article/what-is-copilot-formerly-bing-chat-heres-everything-you-need-to-know/ https://www.microsoft.com/en-us/bing?ep=0&form=MA13LV&es=31 https://support.microsoft.com/en-au/topic/how-bing-delivers-search-results-d18fc815-ac37-4723-bc67-9229ce3eb6a3 https://blogs.microsoft.com/blog/2023/02/07/reinventing-search-with-a-new-ai-powered-microsoft-bing-and-edge-your-copilot-for-the-web/
https://mp.weixin.qq.com/s/ZWKMT4z0lgQrOHtSBjJ5ZA https://mp.weixin.qq.com/s/9gRQwWFn5Ly9QW6MySUGfQ https:///blog/zh/google-pagerank/ https://time./column/article/222807 https:///search-engine-working-principle/ https://cloud.tencent.com/developer/article/2255169 https://zhuanlan.zhihu.com/p/608308322 https://blogs.bing.com/search-quality-insights/february-2023/Building-the-New-Bing https:///microsoft-bing-explains-how-bing-ai-chat-leverages-chatgpt-and-bing-search-with-prometheus-393437 https://jiandan.baidu.com/ https://mp.weixin.qq.com/s/rwCJ7HjTAiJA4iIoDw9Ztw https://mp.weixin.qq.com/s/dwrwjuuJVl8J67KGF84zKw https://browser.#/ai/ https://ai.360.com/ https://mp.weixin.qq.com/s/rANopuBw38bATILDZhaKow https://www./hub/faq/how-does-perplexity-work https://blog./ai/perplexity-the-ai-search-engine https://www./How-does-Perplexitys-search-tool-work https://www./blog/business/perplexity-ai https://m.jiemian.com/article/10474939.html https://blog.google/products/search/search-labs-ai-announcement-/
|