ChatGPT致命缺陷：幻覺(jué)

鄭飛3bbr5o1bk2 2023-03-23 發(fā)布于北京

展開(kāi)全文

ChatGPT 以其知識(shí)的深度和響應(yīng)的流暢性令世界驚嘆，但有一個(gè)問(wèn)題阻礙了它的實(shí)用性：它一直在產(chǎn)生幻覺(jué)（hallucination）。

推薦：用 NSDT場(chǎng)景設(shè)計(jì)器快速搭建3D場(chǎng)景。

是的，大型語(yǔ)言模型 (LLM) 會(huì)產(chǎn)生幻覺(jué)，這是谷歌 AI 研究人員在 2018 年推廣的一個(gè)概念。這種情況下的幻覺(jué)是指生成的文本中在語(yǔ)義或句法上看似合理但實(shí)際上不正確或無(wú)意義的錯(cuò)誤。簡(jiǎn)而言之，你不能相信機(jī)器告訴您的內(nèi)容。

這就是為什么，雖然 OpenAI 的 Codex 或 Github 的 Copilot 可以編寫(xiě)代碼，但有經(jīng)驗(yàn)的程序員仍然需要審查輸出——批準(zhǔn)、糾正或拒絕它，然后再允許它進(jìn)入可能造成嚴(yán)重破壞的代碼庫(kù)。

高中老師也在學(xué)習(xí)同樣的東西。 ChatGPT 撰寫(xiě)的讀書(shū)報(bào)告或歷史論文可能讀起來(lái)輕而易舉，但很容易包含學(xué)生懶得根除的錯(cuò)誤“事實(shí)”。

幻覺(jué)是一個(gè)嚴(yán)重的問(wèn)題。比爾·蓋茨 (Bill Gates) 曾設(shè)想，ChatGPT 或類似的大型語(yǔ)言模型有朝一日可以為無(wú)法就醫(yī)的人提供醫(yī)療建議。但是你不能相信來(lái)自容易產(chǎn)生幻覺(jué)的機(jī)器的建議。

1、OpenAI 正在努力修復(fù) ChatGPT 的幻覺(jué)

OpenAI 的首席科學(xué)家和 ChatGPT 的創(chuàng)始人之一 Ilya Sutskever 表示，他相信隨著大型語(yǔ)言模型學(xué)會(huì)將其響應(yīng)錨定在現(xiàn)實(shí)中，這個(gè)問(wèn)題會(huì)隨著時(shí)間的推移而消失。 OpenAI 開(kāi)創(chuàng)了一種技術(shù)，使用一種稱為強(qiáng)化學(xué)習(xí)與人類反饋 (RLHF) 的技術(shù)來(lái)塑造其模型的行為。

RLHF 由 OpenAI 和谷歌的 DeepMind 團(tuán)隊(duì)于 2017 年開(kāi)發(fā)，作為在任務(wù)涉及復(fù)雜或定義不明確的目標(biāo)時(shí)改進(jìn)強(qiáng)化學(xué)習(xí)的一種方式，從而難以設(shè)計(jì)合適的獎(jiǎng)勵(lì)函數(shù)。讓一個(gè)人定期檢查強(qiáng)化學(xué)習(xí)系統(tǒng)的輸出并提供反饋，即使獎(jiǎng)勵(lì)功能被隱藏，強(qiáng)化學(xué)習(xí)系統(tǒng)也能學(xué)習(xí)。

ChatGPT 以其知識(shí)的深度和響應(yīng)的流暢性令世界驚嘆，但有一個(gè)問(wèn)題阻礙了它的實(shí)用性：它一直在產(chǎn)生幻覺(jué)。

是的，大型語(yǔ)言模型 (LLM) 會(huì)產(chǎn)生幻覺(jué)，這是谷歌 AI 研究人員在 2018 年推廣的一個(gè)概念。這種情況下的幻覺(jué)是指生成的文本中在語(yǔ)義或句法上看似合理但實(shí)際上不正確或無(wú)意義的錯(cuò)誤。簡(jiǎn)而言之，您不能相信機(jī)器告訴您的內(nèi)容。

這就是為什么，雖然 OpenAI 的 Codex 或 Github 的 Copilot 可以編寫(xiě)代碼，但有經(jīng)驗(yàn)的程序員仍然需要審查輸出——批準(zhǔn)、糾正或拒絕它，然后再允許它進(jìn)入可能造成嚴(yán)重破壞的代碼庫(kù)。

高中老師也在學(xué)習(xí)同樣的東西。 ChatGPT 撰寫(xiě)的讀書(shū)報(bào)告或歷史論文可能讀起來(lái)輕而易舉，但很容易包含學(xué)生懶得根除的錯(cuò)誤“事實(shí)”。

幻覺(jué)是一個(gè)嚴(yán)重的問(wèn)題。比爾·蓋茨 (Bill Gates) 曾設(shè)想，ChatGPT 或類似的大型語(yǔ)言模型有朝一日可以為無(wú)法就醫(yī)的人提供醫(yī)療建議。但是你不能相信來(lái)自容易產(chǎn)生幻覺(jué)的機(jī)器的建議。

對(duì)于 ChatGPT，在其交互過(guò)程中收集的數(shù)據(jù)用于訓(xùn)練充當(dāng)“獎(jiǎng)勵(lì)預(yù)測(cè)器”的神經(jīng)網(wǎng)絡(luò)，該神經(jīng)網(wǎng)絡(luò)審查 ChatGPT 的輸出并預(yù)測(cè)一個(gè)數(shù)值分?jǐn)?shù)，該分?jǐn)?shù)表示這些動(dòng)作與系統(tǒng)所需行為的一致性——在這種情況下，事實(shí)或準(zhǔn)確的回答。

人工評(píng)估員會(huì)定期檢查 ChatGPT 響應(yīng)并選擇最能反映所需行為的響應(yīng)。該反饋用于調(diào)整獎(jiǎng)勵(lì)預(yù)測(cè)神經(jīng)網(wǎng)絡(luò)，更新后的獎(jiǎng)勵(lì)預(yù)測(cè)神經(jīng)網(wǎng)絡(luò)用于調(diào)整 AI 模型的行為。此過(guò)程在迭代循環(huán)中重復(fù)進(jìn)行，從而改進(jìn)行為。 Sutskever 相信這個(gè)過(guò)程最終會(huì)教會(huì) ChatGPT 提高其整體性能。

2、幻覺(jué)可能是大型語(yǔ)言模型所固有的

但深度學(xué)習(xí)和大型語(yǔ)言模型中使用的自監(jiān)督學(xué)習(xí)的先驅(qū) Yann LeCun 認(rèn)為，大模型存在導(dǎo)致幻覺(jué)的更根本的缺陷。

“大型語(yǔ)言模型不知道語(yǔ)言描述的潛在現(xiàn)實(shí)，”他說(shuō)，并補(bǔ)充說(shuō)大多數(shù)人類知識(shí)都是非語(yǔ)言的。 “這些系統(tǒng)生成的文本在語(yǔ)法和語(yǔ)義上聽(tīng)起來(lái)都不錯(cuò)，但除了滿足與提示的統(tǒng)計(jì)一致性之外，它們并沒(méi)有真正的某種目標(biāo)?！?/p>

人類根據(jù)許多從未被記錄下來(lái)的知識(shí)進(jìn)行操作，例如通過(guò)觀察或經(jīng)驗(yàn)獲得的社區(qū)內(nèi)的習(xí)俗、信仰或?qū)嵺`。熟練的工匠可能對(duì)他們的手藝有默契的知識(shí)，這些知識(shí)從未被記錄下來(lái)。

“語(yǔ)言建立在我們共同擁有的大量背景知識(shí)之上，我們稱之為常識(shí)，”LeCun 說(shuō)。他認(rèn)為計(jì)算機(jī)需要通過(guò)觀察來(lái)學(xué)習(xí)以獲得這種非語(yǔ)言知識(shí)。

LeCun 說(shuō)：“他們的聰明程度和準(zhǔn)確性是有限度的，因?yàn)樗麄儧](méi)有現(xiàn)實(shí)世界的經(jīng)驗(yàn)，而這實(shí)際上是語(yǔ)言的潛在現(xiàn)實(shí)?！?“我們學(xué)到的大部分內(nèi)容與語(yǔ)言無(wú)關(guān)?！?/p>

另一位深度學(xué)習(xí)先驅(qū)杰夫·辛頓 (Geoff Hinton) 說(shuō)：“我們學(xué)習(xí)如何投籃球，讓它穿過(guò)籃筐?！?“我們根本不使用語(yǔ)言來(lái)學(xué)習(xí)。我們從反復(fù)試驗(yàn)中學(xué)習(xí)。”

但 Sutskever 認(rèn)為文本已經(jīng)表達(dá)了世界。他說(shuō)：“我們的預(yù)訓(xùn)練模型已經(jīng)了解了他們需要了解的關(guān)于潛在現(xiàn)實(shí)的一切，”并補(bǔ)充說(shuō)，他們還對(duì)產(chǎn)生語(yǔ)言的過(guò)程有深入的了解。

他認(rèn)為，雖然通過(guò)視覺(jué)直接觀察學(xué)習(xí)可能會(huì)更快，但考慮到用于訓(xùn)練像 ChatGPT 這樣的 LLM 的數(shù)十億單詞的數(shù)量，即使是抽象的想法也可以通過(guò)文本來(lái)學(xué)習(xí)。

神經(jīng)網(wǎng)絡(luò)通過(guò)稱為嵌入的機(jī)器可讀格式來(lái)表示單詞、句子和概念。嵌入將高維向量（捕獲其語(yǔ)義含義的長(zhǎng)數(shù)字串）映射到低維空間，即更易于分析或處理的較短數(shù)字串。

Sutskever 解釋說(shuō)，通過(guò)查看這些數(shù)字串，研究人員可以了解模型如何將一個(gè)概念與另一個(gè)概念聯(lián)系起來(lái)。他說(shuō)，模型知道像紫色這樣的抽象概念與藍(lán)色比與紅色更相似，并且它知道橙色與紅色比與紫色更相似。 “它只從文本中就知道所有這些事情，”他說(shuō)。雖然從視覺(jué)中學(xué)習(xí)顏色的概念要容易得多，但仍然可以僅從文本中學(xué)習(xí)，只是速度較慢。

是否可以通過(guò)人工反饋的強(qiáng)化學(xué)習(xí)來(lái)消除不準(zhǔn)確的輸出還有待觀察。目前，大型語(yǔ)言模型在生成精確輸出方面的用處仍然有限。

“我們學(xué)到的大部分內(nèi)容與語(yǔ)言無(wú)關(guān)。”

Diffblue 的 CEO Mathew Lodge 是一家使用強(qiáng)化學(xué)習(xí)自動(dòng)為 Java 代碼生成單元測(cè)試的公司，他說(shuō)：“強(qiáng)化系統(tǒng)本身只占運(yùn)行成本的一小部分，而且可以比 LLM 準(zhǔn)確得多，以至于有些可以在最少的人工審查下工作。”

Codex 和 Copilot 都基于 GPT-3，生成可能的單元測(cè)試，有經(jīng)驗(yàn)的程序員必須在確定哪個(gè)有用之前審查和運(yùn)行這些單元測(cè)試。但 Diffblue 的產(chǎn)品無(wú)需人工干預(yù)即可編寫(xiě)可執(zhí)行的單元測(cè)試。

Lodge 說(shuō)：“如果你的目標(biāo)是使用 AI 大規(guī)模地自動(dòng)化復(fù)雜、容易出錯(cuò)的任務(wù)——比如為一個(gè)沒(méi)有人理解的程序編寫(xiě) 10,000 個(gè)單元測(cè)試——那么準(zhǔn)確性就非常重要?！?他同意 LLM 可以很好地進(jìn)行隨心所欲的創(chuàng)造性互動(dòng)，但他警告說(shuō)，過(guò)去十年告訴我們，大型深度學(xué)習(xí)模型是高度不可預(yù)測(cè)的，使模型更大、更復(fù)雜并不能解決這個(gè)問(wèn)題。 “最好在錯(cuò)誤和幻覺(jué)影響不大時(shí)使用大型語(yǔ)言模型，”他說(shuō)。

盡管如此，Sutskever 表示，隨著生成模型的改進(jìn)，“從文本的角度來(lái)看，它們將對(duì)世界及其許多微妙之處有驚人的理解?！?/p>

原文鏈接：http://www./blog/chatgpt-fatal-hallucination/

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

ChatGPT致命缺陷：幻覺(jué)