小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

和谷歌搜索搶活,F(xiàn)RESHLLM「緊跟時(shí)事」,幻覺(jué)更少,信息更準(zhǔn)

 天承辦公室 2023-10-11 發(fā)布于北京

機(jī)器之心報(bào)道

機(jī)器之心編輯部

LLM 能更新知識(shí)的話,還有谷歌搜索什么事?

大型語(yǔ)言模型的能力有目共睹,如 BARD 和 CHATGPT/GPT-4,被設(shè)計(jì)成多功能開(kāi)放域聊天機(jī)器人,可以就不同主題進(jìn)行多輪對(duì)話。它們能夠幫助人們完成諸多任務(wù),但這并不代表它們是萬(wàn)能的。

「幻覺(jué)」與過(guò)時(shí)的信息降低了這些大模型回復(fù)的可信度。尤其對(duì)于需要信息實(shí)時(shí)更新的領(lǐng)域(如公司股價(jià))而言,這更是嚴(yán)重。

圖片

與 GPT-4 對(duì)話過(guò)程中,會(huì)發(fā)現(xiàn)它的信息更新有限制

這種現(xiàn)象可部分歸因于其參數(shù)中存在編碼的過(guò)時(shí)知識(shí)。雖然利用人類(lèi)反饋或知識(shí)增強(qiáng)任務(wù)進(jìn)行額外訓(xùn)練可以緩解這一問(wèn)題,這種方法并不容易推廣。另外,上下文學(xué)習(xí)是一種有吸引力的替代方法,可將實(shí)時(shí)知識(shí)注入 LLM 的提示中以生成條件。雖然近期的一些研究已經(jīng)開(kāi)始探索利用網(wǎng)絡(luò)搜索結(jié)果來(lái)增強(qiáng) LLM,但如何充分利用搜索引擎的輸出來(lái)提高 LLM 的事實(shí)性尚不清楚。

在一篇最新的論文中,來(lái)自谷歌、馬薩諸塞大學(xué)阿默斯特分校、OpenAI 的研究者發(fā)現(xiàn),Perplexity 和 GPT-4 w/prompting 的性能優(yōu)于谷歌搜索。同時(shí),越來(lái)越多的非科技人員在搜索查詢時(shí)使用 Perplexity 而不是其他 LLM。那么谷歌搜索真的會(huì)被 LLM 取代嗎?

圖片

有網(wǎng)友表示,雖然在簡(jiǎn)單問(wèn)題上,LLM 的表現(xiàn)更好,但是對(duì)于大模型的「幻覺(jué)」問(wèn)題依然保持謹(jǐn)慎態(tài)度他們使用谷歌搜索驗(yàn)證大模型的回復(fù)。

其實(shí),研究者也致力于解決大模型知識(shí)過(guò)時(shí)的問(wèn)題。接下來(lái),我們一起看看他們的成果。

圖片

論文地址:https:///pdf/2310.03214.pdf

FRESHQA 數(shù)據(jù)集

在這項(xiàng)工作中,研究者先是創(chuàng)建了一個(gè)名為「FRESHQA」的新型質(zhì)量保證基準(zhǔn),用于評(píng)估現(xiàn)有 LLM 生成內(nèi)容的事實(shí)性。FRESHQA 包含 600 個(gè)自然問(wèn)題,大致分為圖 1 所示的四大類(lèi)。這些問(wèn)題跨越了一系列不同的主題,具有不同的難度級(jí)別,并要求模型「理解」世界上的最新知識(shí),以便能夠正確回答。

圖片

此外,F(xiàn)RESHQA 還具有動(dòng)態(tài)性:一些 ground-truth 答案可能會(huì)隨著時(shí)間的推移而改變,被歸入特定類(lèi)別的問(wèn)題可能會(huì)在以后的某個(gè)時(shí)間點(diǎn)被重新分類(lèi)。就比如,「馬斯克與現(xiàn)任配偶結(jié)婚多久了?」在當(dāng)前是一個(gè)虛假推理問(wèn)題,但如果馬斯克在未來(lái)再次結(jié)婚,該問(wèn)題被歸入的類(lèi)別就需要變一變了。

研究者招募了一些 NLP 研究人員(包括作者及其同事)和線上自由撰稿人來(lái)收集 FRESHQA 的數(shù)據(jù)。在四類(lèi)問(wèn)題中的每一類(lèi)中,都要求注釋者撰寫(xiě)兩種不同難度的問(wèn)題:一跳(one-hop),即問(wèn)題明確提到了回答該問(wèn)題所需的所有相關(guān)信息,因此不需要額外的推理(例如,誰(shuí)是 Twitter 的首席執(zhí)行官);多跳(multi-hop),即問(wèn)題需要一個(gè)或多個(gè)額外的推理步驟才能收集到回答該問(wèn)題所需的所有相關(guān)信息(例如,世界上最高建筑的總高度是多少?)

研究者通過(guò)向不同的 LLM 提出問(wèn)題和一些問(wèn)答示范,然后對(duì)其回答進(jìn)行采樣,以此來(lái)衡量它們?cè)?FRESHQA 上的表現(xiàn),然后對(duì)模型回答的事實(shí)準(zhǔn)確性進(jìn)行了廣泛的人工評(píng)估,包括超過(guò) 50K 個(gè)判斷。此處采用雙模式評(píng)估程序?qū)γ總€(gè)回答進(jìn)行評(píng)估:「RELAXED」模式只衡量主要答案是否正確,「STRICT」模式則衡量回答中的所有說(shuō)法是否都是最新的事實(shí)(即沒(méi)有幻覺(jué))。

這個(gè)評(píng)估過(guò)程揭示了新舊 LLM 的事實(shí)性,并揭示了不同問(wèn)題類(lèi)型帶來(lái)的不同模型行為。不出所料,在涉及快速變化知識(shí)的問(wèn)題上,會(huì)出現(xiàn)平坦的縮放曲線:簡(jiǎn)單地增加模型大小并不能帶來(lái)可靠的性能提升。在假前提問(wèn)題上,他們也觀察到了類(lèi)似的趨勢(shì)。不過(guò),如果明確詢問(wèn)「請(qǐng)?jiān)诨卮鹎皺z查問(wèn)題是否包含有效前提」,一些 LLM 就能夠揭穿假前提問(wèn)題。

總體來(lái)說(shuō),F(xiàn)RESHQA 對(duì)當(dāng)前的 LLM 來(lái)說(shuō)確實(shí)是一個(gè)挑戰(zhàn),指出了很大的改進(jìn)空間。

提示搜索引擎增強(qiáng)的語(yǔ)言模型

受到上述探索的啟發(fā),研究者進(jìn)一步研究了如何通過(guò)將搜索引擎提供的準(zhǔn)確和最新信息作為 LLM 響應(yīng)的基礎(chǔ),有效提高 LLM 的事實(shí)性。鑒于大型 LLMS 的快速發(fā)展和知識(shí)不斷變化的性質(zhì),研究者探索了上下文學(xué)習(xí)方法,使 LLM 能夠通過(guò)其提示關(guān)注推理時(shí)提供的知識(shí)。

隨后,研究者評(píng)估了 LLM 搜索引擎增強(qiáng)對(duì) FRESHQA 的影響,并提出了一種簡(jiǎn)單的少樣本提示方法 FRESHPROMPT。該方法通過(guò)將檢索自搜索引擎(谷歌搜索)的最新相關(guān)信息整合到提示中,極大地提升了 LLM 的 FRESHQA 性能。

下圖 3 為 FRESHPROMPT 的格式。

圖片

FRESHPROMPT 方法

FRESHPROMPT 方法利用一個(gè)文本提示來(lái)將來(lái)自搜索引擎的上下文相關(guān)的最新信息(包括相關(guān)問(wèn)題的答案)引入到一個(gè)預(yù)訓(xùn)練 LLM,并教導(dǎo)該模型對(duì)檢索到的證據(jù)進(jìn)行推理。

更具體來(lái)講,給定一個(gè)問(wèn)題 q,研究者首先逐字地使用 q 來(lái)查詢搜索引擎,這里是谷歌搜索。他們檢索了所有搜索結(jié)果,包括答案框、自然結(jié)果和其他有用的信息(如知識(shí)圖譜、眾包 QA 平臺(tái)上的問(wèn)答)、以及搜索用戶問(wèn)的相關(guān)問(wèn)題。示例如下圖 6 所示。

圖片

對(duì)于每個(gè)這樣的結(jié)果,研究者提取了相關(guān)的文本片段 x 以及其他的信息,比如來(lái)源 s(如維基百科)、日期 d、標(biāo)題 t 和高亮文字 h,然后創(chuàng)建包含 k 個(gè)檢索到的證據(jù)的列表 E = {(s, d, t, x, h)}。接下來(lái)這些證據(jù)將轉(zhuǎn)換成常見(jiàn)的格式(如上圖 3 左),并通過(guò)上下文內(nèi)學(xué)習(xí)來(lái)調(diào)整模型。此外為了鼓勵(lì)模型基于最近的結(jié)果來(lái)專(zhuān)注于較新的證據(jù),研究者從舊到新對(duì)提示中的證據(jù) E 進(jìn)行排序。

為了幫助模型來(lái)理解任務(wù)和預(yù)期的輸出,研究者在輸入提示的開(kāi)頭提供了輸入輸出示例的少樣本演示。每個(gè)演示首先為模型提供一個(gè)問(wèn)題示例以及該問(wèn)題的一組檢索到的證據(jù),然后對(duì)證據(jù)進(jìn)行思維鏈推理以找到最相關(guān)、最新的答案(如上圖 3 右)。

盡管研究者在演示中包含了少數(shù)帶有錯(cuò)誤前提的問(wèn)題示例,但也嘗試了在提示中進(jìn)行顯式錯(cuò)誤前提檢查,比如「請(qǐng)?jiān)诨卮鹎皺z查問(wèn)題中是否包含有效前提」。下圖 7 展示了一個(gè)真實(shí)的提示。

圖片

實(shí)驗(yàn)設(shè)置

對(duì)于 FRESHPROMPT 設(shè)置,研究者通過(guò)將檢索到的證據(jù)整合到輸入提示中,依次將 FRESHPROMPT 應(yīng)用于 GPT-3.5 和 GPT-4 中。這些證據(jù)包括了自然搜索結(jié)果 0、搜索用戶問(wèn)的相關(guān)問(wèn)題 r、來(lái)自眾包 QA 平臺(tái)上的問(wèn)答 a 以及來(lái)自知識(shí)圖譜和答案框的文本片段(如有)。考慮到模型上下文的限制,他們?cè)诟鶕?jù)相應(yīng)日期排序后僅保留前 n 個(gè)證據(jù)(更靠近提示末尾)。

除非另有說(shuō)明,研究者針對(duì) GPT-3.5 使用了 (o, r, a, n,m) = (10, 2, 2, 5),針對(duì) GPT-4 使用了 (o, r, a, n,m) = (10, 3, 3, 10)。此外,他們?cè)谔崾镜拈_(kāi)頭包含了 m = 5 個(gè)問(wèn)答演示。

實(shí)驗(yàn)結(jié)果

FRESHPROMPT 顯著提升了 FRESHQA 的準(zhǔn)確性。下表 1 展示了 STRICT 模式下的具體數(shù)字??梢钥吹?,相對(duì)于原始 GPT-3.5 和 GPT-4,F(xiàn)RESHPROMP 實(shí)現(xiàn)了全方位的重大改進(jìn)。

其中,GPT-4 + FRESHPROMPT 在 STRICT 和 RELAXED 模式下分別較 GPT-4 實(shí)現(xiàn)了 47% 和 31.4% 的絕對(duì)準(zhǔn)確率提升。STRICT 和 RELAXED 之間絕對(duì)準(zhǔn)確率差距的縮小(從 17.8% 到 2.2%)也表明,F(xiàn)RESHPROMP 可以極大地減少過(guò)時(shí)和幻覺(jué)答案的出現(xiàn)。

此外,GPT-3.5 和 GPT-4 最顯著的改進(jìn)是在快速和緩慢變化的問(wèn)題類(lèi)別,這些問(wèn)題涉及最新知識(shí)。這意味著,關(guān)于舊知識(shí)的問(wèn)題也受益于 FRESHPROMPT。比如在 STRICT 模式下,對(duì)于包含 2022 年以前知識(shí)的有效前提的問(wèn)題,GPT-4 + FRESHPROMPT 的準(zhǔn)確率比 GPT-4 高了 30.5%;在 RELAXED 模式下這一數(shù)字是 9.9%。

此外,F(xiàn)RESHPROMPT 在假前提問(wèn)題上也取得了顯著的進(jìn)步,GPT-4 在 STRICT 和 RELAXED 模式下的準(zhǔn)確率分別提升了 37.1% 和 8.1%。

圖片

此外,F(xiàn)RESHPROMPT 還展示出了以下結(jié)果:

  • 大幅度優(yōu)于其他搜索增強(qiáng)方法;

  • 前提檢查增強(qiáng)了假前提問(wèn)題的準(zhǔn)確率,但會(huì)損害具有有效前提的問(wèn)題的準(zhǔn)確率;

  • 在輸入上下文的末尾提供更多最新的相關(guān)證據(jù)是有幫助的;

  • 自然搜索結(jié)果之外檢索到的其他信息提供了進(jìn)一步增益;

  • 檢索到的證據(jù)越多會(huì)進(jìn)一步提升 FRESHPROMPT;

  • 冗長(zhǎng)的演示有助于回答復(fù)雜的問(wèn)題,但也會(huì)增加幻覺(jué)。

研究者表示,他們目前僅針對(duì)每個(gè)問(wèn)題進(jìn)行一次搜索查詢,因此可以通過(guò)問(wèn)題分解和多個(gè)搜索查詢來(lái)進(jìn)一步實(shí)現(xiàn)提升。此外,由于 FRESHQA 包含的是相對(duì)簡(jiǎn)單的英語(yǔ)問(wèn)題,因此不清楚在多語(yǔ)言 / 跨語(yǔ)言 QA 和長(zhǎng)格式 QA 上下文中的表現(xiàn)如何。最后 FRESHPROMPT 依賴上下文內(nèi)學(xué)習(xí),因此可能不如根據(jù)新知識(shí)來(lái)微調(diào)基礎(chǔ) LLM 的方法。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類(lèi)似文章 更多