ChatGPT 以其知識(shí)的深度和響應(yīng)的流暢性令世界驚嘆,但有一個(gè)問(wèn)題阻礙了它的實(shí)用性:它一直在產(chǎn)生幻覺(jué)(hallucination)。 推薦:用 NSDT場(chǎng)景設(shè)計(jì)器 快速搭建3D場(chǎng)景。 是的,大型語(yǔ)言模型 (LLM) 會(huì)產(chǎn)生幻覺(jué),這是谷歌 AI 研究人員在 2018 年推廣的一個(gè)概念。這種情況下的幻覺(jué)是指生成的文本中在語(yǔ)義或句法上看似合理但實(shí)際上不正確或無(wú)意義的錯(cuò)誤。 簡(jiǎn)而言之,你不能相信機(jī)器告訴您的內(nèi)容。 這就是為什么,雖然 OpenAI 的 Codex 或 Github 的 Copilot 可以編寫(xiě)代碼,但有經(jīng)驗(yàn)的程序員仍然需要審查輸出——批準(zhǔn)、糾正或拒絕它,然后再允許它進(jìn)入可能造成嚴(yán)重破壞的代碼庫(kù)。 高中老師也在學(xué)習(xí)同樣的東西。 ChatGPT 撰寫(xiě)的讀書(shū)報(bào)告或歷史論文可能讀起來(lái)輕而易舉,但很容易包含學(xué)生懶得根除的錯(cuò)誤“事實(shí)”。 幻覺(jué)是一個(gè)嚴(yán)重的問(wèn)題。 比爾·蓋茨 (Bill Gates) 曾設(shè)想,ChatGPT 或類似的大型語(yǔ)言模型有朝一日可以為無(wú)法就醫(yī)的人提供醫(yī)療建議。 但是你不能相信來(lái)自容易產(chǎn)生幻覺(jué)的機(jī)器的建議。 1、OpenAI 正在努力修復(fù) ChatGPT 的幻覺(jué) OpenAI 的首席科學(xué)家和 ChatGPT 的創(chuàng)始人之一 Ilya Sutskever 表示,他相信隨著大型語(yǔ)言模型學(xué)會(huì)將其響應(yīng)錨定在現(xiàn)實(shí)中,這個(gè)問(wèn)題會(huì)隨著時(shí)間的推移而消失。 OpenAI 開(kāi)創(chuàng)了一種技術(shù),使用一種稱為強(qiáng)化學(xué)習(xí)與人類反饋 (RLHF) 的技術(shù)來(lái)塑造其模型的行為。 RLHF 由 OpenAI 和谷歌的 DeepMind 團(tuán)隊(duì)于 2017 年開(kāi)發(fā),作為在任務(wù)涉及復(fù)雜或定義不明確的目標(biāo)時(shí)改進(jìn)強(qiáng)化學(xué)習(xí)的一種方式,從而難以設(shè)計(jì)合適的獎(jiǎng)勵(lì)函數(shù)。 讓一個(gè)人定期檢查強(qiáng)化學(xué)習(xí)系統(tǒng)的輸出并提供反饋,即使獎(jiǎng)勵(lì)功能被隱藏,強(qiáng)化學(xué)習(xí)系統(tǒng)也能學(xué)習(xí)。 ChatGPT 以其知識(shí)的深度和響應(yīng)的流暢性令世界驚嘆,但有一個(gè)問(wèn)題阻礙了它的實(shí)用性:它一直在產(chǎn)生幻覺(jué)。 是的,大型語(yǔ)言模型 (LLM) 會(huì)產(chǎn)生幻覺(jué),這是谷歌 AI 研究人員在 2018 年推廣的一個(gè)概念。這種情況下的幻覺(jué)是指生成的文本中在語(yǔ)義或句法上看似合理但實(shí)際上不正確或無(wú)意義的錯(cuò)誤。 簡(jiǎn)而言之,您不能相信機(jī)器告訴您的內(nèi)容。 這就是為什么,雖然 OpenAI 的 Codex 或 Github 的 Copilot 可以編寫(xiě)代碼,但有經(jīng)驗(yàn)的程序員仍然需要審查輸出——批準(zhǔn)、糾正或拒絕它,然后再允許它進(jìn)入可能造成嚴(yán)重破壞的代碼庫(kù)。 高中老師也在學(xué)習(xí)同樣的東西。 ChatGPT 撰寫(xiě)的讀書(shū)報(bào)告或歷史論文可能讀起來(lái)輕而易舉,但很容易包含學(xué)生懶得根除的錯(cuò)誤“事實(shí)”。 幻覺(jué)是一個(gè)嚴(yán)重的問(wèn)題。 比爾·蓋茨 (Bill Gates) 曾設(shè)想,ChatGPT 或類似的大型語(yǔ)言模型有朝一日可以為無(wú)法就醫(yī)的人提供醫(yī)療建議。 但是你不能相信來(lái)自容易產(chǎn)生幻覺(jué)的機(jī)器的建議。 對(duì)于 ChatGPT,在其交互過(guò)程中收集的數(shù)據(jù)用于訓(xùn)練充當(dāng)“獎(jiǎng)勵(lì)預(yù)測(cè)器”的神經(jīng)網(wǎng)絡(luò),該神經(jīng)網(wǎng)絡(luò)審查 ChatGPT 的輸出并預(yù)測(cè)一個(gè)數(shù)值分?jǐn)?shù),該分?jǐn)?shù)表示這些動(dòng)作與系統(tǒng)所需行為的一致性——在這種情況下, 事實(shí)或準(zhǔn)確的回答。 人工評(píng)估員會(huì)定期檢查 ChatGPT 響應(yīng)并選擇最能反映所需行為的響應(yīng)。 該反饋用于調(diào)整獎(jiǎng)勵(lì)預(yù)測(cè)神經(jīng)網(wǎng)絡(luò),更新后的獎(jiǎng)勵(lì)預(yù)測(cè)神經(jīng)網(wǎng)絡(luò)用于調(diào)整 AI 模型的行為。 此過(guò)程在迭代循環(huán)中重復(fù)進(jìn)行,從而改進(jìn)行為。 Sutskever 相信這個(gè)過(guò)程最終會(huì)教會(huì) ChatGPT 提高其整體性能。 2、幻覺(jué)可能是大型語(yǔ)言模型所固有的 但深度學(xué)習(xí)和大型語(yǔ)言模型中使用的自監(jiān)督學(xué)習(xí)的先驅(qū) Yann LeCun 認(rèn)為,大模型存在導(dǎo)致幻覺(jué)的更根本的缺陷。 “大型語(yǔ)言模型不知道語(yǔ)言描述的潛在現(xiàn)實(shí),”他說(shuō),并補(bǔ)充說(shuō)大多數(shù)人類知識(shí)都是非語(yǔ)言的。 “這些系統(tǒng)生成的文本在語(yǔ)法和語(yǔ)義上聽(tīng)起來(lái)都不錯(cuò),但除了滿足與提示的統(tǒng)計(jì)一致性之外,它們并沒(méi)有真正的某種目標(biāo)?!?/p> 人類根據(jù)許多從未被記錄下來(lái)的知識(shí)進(jìn)行操作,例如通過(guò)觀察或經(jīng)驗(yàn)獲得的社區(qū)內(nèi)的習(xí)俗、信仰或?qū)嵺`。 熟練的工匠可能對(duì)他們的手藝有默契的知識(shí),這些知識(shí)從未被記錄下來(lái)。 “語(yǔ)言建立在我們共同擁有的大量背景知識(shí)之上,我們稱之為常識(shí),”LeCun 說(shuō)。 他認(rèn)為計(jì)算機(jī)需要通過(guò)觀察來(lái)學(xué)習(xí)以獲得這種非語(yǔ)言知識(shí)。 LeCun 說(shuō):“他們的聰明程度和準(zhǔn)確性是有限度的,因?yàn)樗麄儧](méi)有現(xiàn)實(shí)世界的經(jīng)驗(yàn),而這實(shí)際上是語(yǔ)言的潛在現(xiàn)實(shí)?!?“我們學(xué)到的大部分內(nèi)容與語(yǔ)言無(wú)關(guān)?!?/p> 另一位深度學(xué)習(xí)先驅(qū)杰夫·辛頓 (Geoff Hinton) 說(shuō):“我們學(xué)習(xí)如何投籃球,讓它穿過(guò)籃筐?!?“我們根本不使用語(yǔ)言來(lái)學(xué)習(xí)。 我們從反復(fù)試驗(yàn)中學(xué)習(xí)。” 但 Sutskever 認(rèn)為文本已經(jīng)表達(dá)了世界。 他說(shuō):“我們的預(yù)訓(xùn)練模型已經(jīng)了解了他們需要了解的關(guān)于潛在現(xiàn)實(shí)的一切,”并補(bǔ)充說(shuō),他們還對(duì)產(chǎn)生語(yǔ)言的過(guò)程有深入的了解。 他認(rèn)為,雖然通過(guò)視覺(jué)直接觀察學(xué)習(xí)可能會(huì)更快,但考慮到用于訓(xùn)練像 ChatGPT 這樣的 LLM 的數(shù)十億單詞的數(shù)量,即使是抽象的想法也可以通過(guò)文本來(lái)學(xué)習(xí)。 神經(jīng)網(wǎng)絡(luò)通過(guò)稱為嵌入的機(jī)器可讀格式來(lái)表示單詞、句子和概念。 嵌入將高維向量(捕獲其語(yǔ)義含義的長(zhǎng)數(shù)字串)映射到低維空間,即更易于分析或處理的較短數(shù)字串。 Sutskever 解釋說(shuō),通過(guò)查看這些數(shù)字串,研究人員可以了解模型如何將一個(gè)概念與另一個(gè)概念聯(lián)系起來(lái)。 他說(shuō),模型知道像紫色這樣的抽象概念與藍(lán)色比與紅色更相似,并且它知道橙色與紅色比與紫色更相似。 “它只從文本中就知道所有這些事情,”他說(shuō)。 雖然從視覺(jué)中學(xué)習(xí)顏色的概念要容易得多,但仍然可以僅從文本中學(xué)習(xí),只是速度較慢。 是否可以通過(guò)人工反饋的強(qiáng)化學(xué)習(xí)來(lái)消除不準(zhǔn)確的輸出還有待觀察。 目前,大型語(yǔ)言模型在生成精確輸出方面的用處仍然有限。 “我們學(xué)到的大部分內(nèi)容與語(yǔ)言無(wú)關(guān)。” Diffblue 的 CEO Mathew Lodge 是一家使用強(qiáng)化學(xué)習(xí)自動(dòng)為 Java 代碼生成單元測(cè)試的公司,他說(shuō):“強(qiáng)化系統(tǒng)本身只占運(yùn)行成本的一小部分,而且可以比 LLM 準(zhǔn)確得多,以至于 有些可以在最少的人工審查下工作。” Codex 和 Copilot 都基于 GPT-3,生成可能的單元測(cè)試,有經(jīng)驗(yàn)的程序員必須在確定哪個(gè)有用之前審查和運(yùn)行這些單元測(cè)試。 但 Diffblue 的產(chǎn)品無(wú)需人工干預(yù)即可編寫(xiě)可執(zhí)行的單元測(cè)試。 Lodge 說(shuō):“如果你的目標(biāo)是使用 AI 大規(guī)模地自動(dòng)化復(fù)雜、容易出錯(cuò)的任務(wù)——比如為一個(gè)沒(méi)有人理解的程序編寫(xiě) 10,000 個(gè)單元測(cè)試——那么準(zhǔn)確性就非常重要?!?他同意 LLM 可以很好地進(jìn)行隨心所欲的創(chuàng)造性互動(dòng),但他警告說(shuō),過(guò)去十年告訴我們,大型深度學(xué)習(xí)模型是高度不可預(yù)測(cè)的,使模型更大、更復(fù)雜并不能解決這個(gè)問(wèn)題。 “最好在錯(cuò)誤和幻覺(jué)影響不大時(shí)使用大型語(yǔ)言模型,”他說(shuō)。 盡管如此,Sutskever 表示,隨著生成模型的改進(jìn),“從文本的角度來(lái)看,它們將對(duì)世界及其許多微妙之處有驚人的理解?!?/p> 原文鏈接:http://www./blog/chatgpt-fatal-hallucination/ |
|
來(lái)自: 鄭飛3bbr5o1bk2 > 《ChartGPT》