如何讓 AI 能夠像人類一樣能真正規(guī)劃?可以參考人類和動物是如何快速學(xué)習(xí)的。
當(dāng)今世界,Yann LeCun 、Geoffrey Hinton 以及 Yoshua Bengio 三位科學(xué)家并稱為深度學(xué)習(xí)三巨頭。值得注意的是,三巨頭之中,LeCun 對于 AI 發(fā)展所持的態(tài)度是最為樂觀的。此前在馬斯克提出「人工智能給人類文明帶來了潛在風(fēng)險」時,LeCun 曾公開反駁,認為人工智能遠未發(fā)展到給人類構(gòu)成威脅的程度。關(guān)于 AI 接下來該如何發(fā)展,在今天上午于北京舉行的 2023 智源人工智能大會上,他發(fā)表了名為《走向能夠?qū)W習(xí)、推理和規(guī)劃的大模型》的演講,表達了系統(tǒng)的思考。 法國當(dāng)?shù)貢r間凌晨四點,LeCun 從法國的家中連線智源大會的北京現(xiàn)場。盡管 OpenAI 的 GPT 路線風(fēng)頭正盛,許多人認為大語言模型將通往 AGI,LeCun 卻直言不諱:需要放棄生成模型、強化學(xué)習(xí)方法這樣的主流路線。他認為,基于自監(jiān)督的語言模型無法獲得關(guān)于真實世界的知識。盡管語言生成的內(nèi)容質(zhì)量一直提升,但是這些模型在本質(zhì)上是不可控的。對于語言模型的局限性理解,也基于他此前的一個基本觀點:人類有許多知識是目前無法被語言系統(tǒng)所觸達的。 因此,想讓 AI 獲得如人一般對真實世界學(xué)習(xí)、應(yīng)對和規(guī)劃的能力,他展示了自己在一年前所發(fā)表的論文中提出的架構(gòu)「自主智能」(autonomous intelligence)。這是由一個配置模塊控制整個系統(tǒng),基于輸入信息,進行預(yù)測、推理、決策的架構(gòu)。其中的「世界模塊」具有估計缺失信息、預(yù)測未來外界狀態(tài)的能力。 極客公園團隊在智源大會現(xiàn)場觀看了這場演講,以下為核心觀點精彩摘要以及經(jīng)過編輯的演講內(nèi)容。 LeCun 核心觀點精彩摘要:
、 以下為演講全文的部分摘要, 經(jīng)極客公園編輯后發(fā)布: 很抱歉我不能親自到場,已經(jīng)很久沒有去中國了。 今天我將談一下我眼中的人工智能的未來。我會分享一下 AI 在未來十年左右的方向,以及目前的一些初步結(jié)果,但還沒有完整的系統(tǒng)。 本質(zhì)上來說,人類和動物的能力和今天我們看到的AI的能力之間,是有差距的。簡單來說,機器學(xué)習(xí)和人類動物相比并不特別好。AI 缺失的不僅僅是學(xué)習(xí)的能力,還有推理和規(guī)劃的能力。 過去幾十年來,我們一直在使用監(jiān)督學(xué)習(xí),這需要太多的標注。強化學(xué)習(xí)效果不錯,但需要大量的實驗。最近幾年,我們更多使用機器自監(jiān)督,但結(jié)果是,這些系統(tǒng)在某種程度上是專業(yè)化和脆弱的。它們會犯愚蠢的錯誤,它們不會推理和規(guī)劃,它們只是快速地反應(yīng)。 那么,我們?nèi)绾巫寵C器像動物和人類一樣理解世界的運作方式,并預(yù)測其行動的后果?是否可以通過無限步驟的推理執(zhí)行鏈,或者將復(fù)雜任務(wù)分解為子任務(wù)序列來規(guī)劃復(fù)雜任務(wù)? 這是我今天想講的話題。 但在此之前,我想先談一下什么是自監(jiān)督學(xué)習(xí)?自監(jiān)督學(xué)習(xí)是捕捉輸入中的依賴關(guān)系。在最常見的范例中,我們遮蓋輸入的一部分后將其反饋送到機器學(xué)習(xí)系統(tǒng)中,然后揭曉其余的輸入——訓(xùn)練系統(tǒng)會捕捉看到的部分和尚未看到的部分之間的依賴關(guān)系。有時是通過預(yù)測缺失的部分來完成的,有時不完全預(yù)測。 這種方法在自然語言處理的領(lǐng)域取得了驚人的成功(如翻譯、文本分類)。最近大模型的所有成功都是這個想法的一個版本。 同樣成功的是生成式人工智能系統(tǒng),用于生成圖像、視頻或文本。在文本領(lǐng)域這些系統(tǒng)是自回歸的。自監(jiān)督學(xué)習(xí)的訓(xùn)練方式下,系統(tǒng)預(yù)測的不是隨機缺失的單詞,而是僅預(yù)測最后一個單詞。系統(tǒng)不斷地預(yù)測下一個標記,然后將標記移入輸入中,再預(yù)測下一個標記,再將其移入輸入中,不斷重復(fù)該過程。這就是自回歸 LLM。 這就是我們在過去幾年中看到的流行模型所做的事情:其中一些來自 Meta 的同事,包括開源的 BlenderBot、Galactica、LLaMA、Stanford 的 Alpaca(Lama 基于 LLaMA 的微調(diào)版)、Google 的 LaMDA 、Bard、DeepMind 的 Chinchilla,當(dāng)然還有 OpenAI 的 ChatGPT 和 GPT-4。如果你將這些模型訓(xùn)練在一萬億個 Token 或兩萬億個 Token 的數(shù)據(jù)上,它們的性能是驚人的。但最終,它們會犯很愚蠢的錯誤。它們會犯事實錯誤、邏輯錯誤、不一致性,它們的推理能力有限,會產(chǎn)生有害內(nèi)容。 因為它們沒有關(guān)于基礎(chǔ)現(xiàn)實的知識,它們純粹是在文本上進行訓(xùn)練的。這些系統(tǒng)在作為寫作輔助工具、幫助程序員編寫代碼方面非常出色。但是它們可能會產(chǎn)出虛構(gòu)的故事或者制造幻覺。 我同事給我開了一個玩笑。他們說,你知道 Yann Lecun(楊立昆)去年發(fā)行了一張說唱專輯嗎?我們聽了一下(AI 根據(jù)這個想法生成的假專輯),當(dāng)然這是不真實的,但如果您要求它這樣做,它會這樣做。目前的研究重點是,如何讓這些模型系統(tǒng)能夠調(diào)用搜索引擎、計算器、數(shù)據(jù)庫查詢等這類工具。這被稱為擴展語言模型。 我和我的同事合作撰寫過一篇關(guān)于擴展語言模型的論文。我們很容易被它們的流暢性所迷惑,認為它們很聰明,但它們實際上并不那么聰明。它們非常擅長檢索記憶,但它們沒有任何關(guān)于世界運作方式的理解。這種自回歸的生成,存在一種主要缺陷。 如果我們想象所有可能答案的集合,即標記序列的樹(tree),在這個巨大的樹中,有一個小的子樹對應(yīng)于給定提示的正確答案。因此,如果我們想象任何產(chǎn)生標記的平均概率 e 都會將我們帶出正確答案集合的集合,而且產(chǎn)生的錯誤是獨立的,那么它們可能會看到 n 的答案的相似度是(1-e)的 n 次方。這意味著會存在一個指數(shù)級的發(fā)散過程將我們帶出正確答案的樹。這就是自回歸的預(yù)測過程造成的。除了使 e 盡可能小之外,沒有其他修復(fù)方法。 因此,我們必須重新設(shè)計系統(tǒng),使其不會這樣做。這些模型必須重新訓(xùn)練。 那么如何讓 AI 能夠像人類一樣能真正規(guī)劃?我們先來看人類和動物是如何能夠快速學(xué)習(xí)的。 我們看到嬰兒在生命的前幾個月內(nèi)掌握了大量關(guān)于世界運作方式的基礎(chǔ)概念:如物體永恒性、世界是三維的、有機和無機物體之間的區(qū)別、穩(wěn)定性的概念、自然類別的學(xué)習(xí)以及重力等非常基本的概念。嬰兒在 9 個月左右就能會這些。 根據(jù)我同事制作的圖表,如果您向 5 個月大的嬰兒展示下面左下角的場景,其中一個小汽車在平臺上,你將小汽車從平臺上推下來,它似乎漂浮在空中,5 個月大嬰兒不會感到驚訝。但是 10 個月大的嬰兒會非常驚訝,因為在此期間,嬰兒已經(jīng)知道了物體不應(yīng)該停留在空中,它們應(yīng)該在重力下下落。這些基本概念是通過觀察世界和體驗世界來習(xí)得的。我認為我們應(yīng)該用機器復(fù)制這種通過觀察世界或體驗世界學(xué)習(xí)世界運作方式的能力。 我們有流利的系統(tǒng),可以通過法律考試或醫(yī)學(xué)考試,但我們沒有可以清理餐桌并填滿洗碗機的家庭機器人,對吧?這是任何孩子都可以在幾分鐘內(nèi)學(xué)會的事情。但我們?nèi)匀粵]有機器可以接近這樣做。 我們顯然在當(dāng)前擁有的 AI 系統(tǒng)中缺少了非常重要的東西。我們遠遠沒有達到人類水平的智能,那么我們該如何做到這一點?實際上,我已經(jīng)確定了未來幾年 AI 面臨的三個主要挑戰(zhàn)。 首先是學(xué)習(xí)世界的表征和預(yù)測模型,當(dāng)然可以采用自監(jiān)督的方式進行學(xué)習(xí)。 其次是學(xué)習(xí)推理。這對應(yīng)著心理學(xué)家丹尼爾·卡尼曼的系統(tǒng) 1 和系統(tǒng) 2 的概念。系統(tǒng) 1 是與潛意識計算相對應(yīng)的人類行為或行動,是那些無需思考即可完成的事情;而系統(tǒng) 2 則是你有意識地、有目的地運用你的全部思維力去完成的任務(wù)。目前,人工智能基本上只能實現(xiàn)系統(tǒng) 1 中的功能,而且并不完全; 最后一個挑戰(zhàn)則是如何通過將復(fù)雜任務(wù)分解成簡單任務(wù),以分層的方式運行來規(guī)劃復(fù)雜的行動序列。 所以大約一年前,我發(fā)布了一篇論文,是關(guān)于我認為未來 10 年人工智能研究應(yīng)該走向的愿景,你可以去看一下,內(nèi)容基本上是你們在這個演講中聽到的提議。在我提出的這個系統(tǒng)中,核心是世界模型(World Model)。世界模型可以為系統(tǒng)所用,它可以想象一個場景,基于這樣的場景作為依據(jù),預(yù)測行動的結(jié)果。因此,整個系統(tǒng)的目的是找出一系列根據(jù)其自己的世界模型預(yù)測的行動,能夠最小化一系列成本的行動序列。 (編者注:有關(guān) Lecun 關(guān)于世界模型的論述,感興趣的讀者可以自行搜索 Lecun 的這篇論文《A Path Towards Autonomous Machine Intelligence》。) 問答環(huán)節(jié) Q & A: 提問人:朱軍|清華大學(xué)教授,智源首席科學(xué)家 Q:生成式模型通常將輸出定義為多個選擇的概率。當(dāng)我們應(yīng)用這些生成模型時,我們通常也希望它們擁有創(chuàng)造力,產(chǎn)生多樣化的結(jié)果。這是否意味著這些模型實際上無法避免事實錯誤或邏輯的不一致性呢?即使您擁有平衡的數(shù)據(jù),因為在許多情況下,數(shù)據(jù)會產(chǎn)生沖突的影響,對嗎?您之前提到了輸出的不確定性,您對此有何看法? A:我認為,通過保留自回歸生成來解決自回歸預(yù)測模型生成模型的問題是不可行的。這些系統(tǒng)本質(zhì)上是不可控的。所以,它們將必須被我提出的那種架構(gòu)所取代,在推理過程中,你需要讓系統(tǒng)優(yōu)化某種成本和某些準則。這是使它們可控、可操縱和可規(guī)劃的唯一方法。這樣的系統(tǒng)將能夠計劃其回答。 就像我們像現(xiàn)在這樣講話,我們都會計劃講話的過程,怎樣從一個觀點到另一個觀點,怎么解釋事物,這些都在你的腦海里。當(dāng)我們設(shè)計演講時,不是一字一句地即興發(fā)揮。也許在低層次上,我們在即興發(fā)揮,但在高層次上,我們一定是在規(guī)劃。所以規(guī)劃的必要性是非常明顯的。人類和許多動物都具備規(guī)劃能力,我認為這是智能的一項重要特征。所以我的預(yù)測是,在相對短的幾年內(nèi),理智的人肯定不會再使用自回歸元素。這些系統(tǒng)將很快被放棄,因為它們是無法修復(fù)的。 Q:您之后將參與一個辯論,探討人工智能會不會成為人類生存的威脅。 參會者還有 Yoshua Bengio,Max Tegmark 和 Melanie Mitchell。您能講講您屆時將闡述什么觀點嗎? A:在這場辯論中,Max Tegmark 和 Yoshua Bengio 將站在「是」的一邊,認為強大的 AI 系統(tǒng)可能對人類構(gòu)成存在風(fēng)險。而我和 Melanie Mitchell 將站在「否」的一邊。我們的論點不是說沒有風(fēng)險,而是這些風(fēng)險雖然存在,但通過謹慎的工程設(shè)計可以輕易地加以減輕或抑制。 我對此的論點是,今天問人們是否能夠使超智能系統(tǒng)對人類安全,這個問題無法回答,因為我們還沒有超智能系統(tǒng)。所以,直到你能基本設(shè)計出超智能系統(tǒng),你才能討論如何讓它變得安全。這就好比你在 1930 年問一位航空工程師,你能使渦噴發(fā)動機安全可靠嗎?工程師會說,什么是渦噴發(fā)動機?因為渦噴發(fā)動機在 1930 年還沒有被發(fā)明出來,對吧?所以,我們處于一種有點尷尬的境地。現(xiàn)在,宣稱我們無法使這些系統(tǒng)安全還為時過早,因為我們還沒有發(fā)明出它們。一旦我們發(fā)明了它們,或許就是按照我所提出的設(shè)計藍圖,再討論如何使它們安全也許是值得的。 |
|