【原】陳根：為什么要讓AI價值對齊？

陳根談科技 2023-12-19 發(fā)布于浙江

展開全文

文/陳根

隨著AI大模型進入各行各業(yè)的應(yīng)用，以及AI技術(shù)的持續(xù)迭代，關(guān)于AI是否會威脅人類的討論也越來越多。

其實這樣的討論過去也有很多，甚至從AI技術(shù)誕生開始，就有人在擔(dān)憂AI會不會有一天取代人類，或者威脅人類這個物種的存在。

v2-ea220a49065e44d7a6bad1e998901b21_720w

只不過，今天，AI大模型的爆發(fā)，讓這個問題一下子從抽象的討論變得非常具體。我們必須要思考，我們該怎么迎接即將到來的AI時代；必須要面對，如果AI的性能以及達到人類水平甚至超越人類水平時，我們?nèi)祟愒撛趺崔k，以及未來AI會不會有一天真的具有了意識，那個時候，人機發(fā)生沖突該又怎么解決。

而面對這些問題時，有一個概念也被人們重新提起，那就是“價值對齊”。這其實也不是一個新的概念，但這個概念放在今天好像特別合適。那么，到底什么是價值對齊？誰和誰的價值對齊？又怎么對齊？

簡單來說，價值對齊，其實就是讓AI的價值觀和我們?nèi)祟惖膬r值觀對齊，而之所以要讓AI的價值觀和我們?nèi)祟惖膬r值觀對齊，核心目的就是為了安全。

大家可以想象一下，如果不對齊，會有什么后果。

比如哲學(xué)家、牛津大學(xué)人類未來研究所所長Nick Bostrom，曾經(jīng)就提出一個經(jīng)典案例。就是說，如果有一個能力強大的超級智能機器，我們?nèi)祟惤o它布置了一個任務(wù)，就是要“制作盡可能多的回形針”，于是，這個能力強大的超級智能機器就不擇手段的制作回形針，把地球上所有的人和事物都變成制作回形針的材料，最終摧毀了整個世界。

這個故事其實早在古希臘神話里就發(fā)生過。說的是一位叫邁達斯的國王，機緣巧合救了酒神，于是酒神就承諾滿足他的一個愿望，邁達斯很喜歡黃金，于是就許愿，希望自己能點石成金。結(jié)果邁達斯真的得到了他想要的，凡是他所接觸到的東西都會立刻變成金子，但很快他就發(fā)現(xiàn)這是一個災(zāi)難，他喝的水變成了黃金，吃的食物也變成了黃金。

大家從這兩個故事里有沒有發(fā)現(xiàn)一個問題，不管是超級智能機器還是邁達斯，它們都是為了自己的目的，最后超級智能機器完成了回形針任務(wù)，邁達斯也做到了點石成金，但得到的結(jié)果卻是非常災(zāi)難的。因為在這個過程中，它們?nèi)鄙倭艘欢ǖ脑瓌t。

這就是為什么今天價值對齊這個概念會被重新重視的原因。AI根本沒有與人類同樣的關(guān)于生命的價值概念。在這種情況下，AI的能力越大，造成威脅的潛在可能性就越大，傷害力也就越強。

因為如果不能讓AI 與我們?nèi)祟?/span>“價值對齊”，我們可能就會無意中賦予AI與我們自己的目標(biāo)完全相反的目標(biāo)。比如，為了盡快找到治療癌癥的方法，AI可能會選擇將整個人類作為豚鼠進行實驗。為了解決海洋酸化，它可能會耗盡大氣中的所有氧氣。這其實就是系統(tǒng)優(yōu)化的一個共同特征：目標(biāo)中不包含的變量可以設(shè)置為極值，以幫助優(yōu)化該目標(biāo)。

事實上，這個問題在現(xiàn)實世界已經(jīng)有了很多例子，今年11月，韓國慶尚南道一名機器人公司的檢修人員，被蔬菜分揀機器人壓死，原因是機器人把他當(dāng)成需要處理的一盒蔬菜，將其撿起并擠壓，導(dǎo)致其臉部和胸部受傷嚴(yán)重。而后他被送往醫(yī)院，但因傷重而不治身亡。

除此之外，一個沒有價值對齊的AI大模型，還可能輸出含有種族或性別歧視的內(nèi)容，幫助網(wǎng)絡(luò)黑客生成用于進行網(wǎng)絡(luò)攻擊、電信詐騙的代碼或其他內(nèi)容，嘗試說服或幫助有自殺念頭的用戶結(jié)束自己的生命等等。

u=1187034500,1937742068&fm=253&fmt=auto&app=120&f=JPEG.webp

好在當(dāng)前，不同的人工智能團隊都在采取不同的方法來推動人工智能的價值對齊。OpenAI、谷歌的DeepMind各有專注于解決價值對齊問題的團隊。除此之外，還有許多第三方監(jiān)督機構(gòu)、標(biāo)準(zhǔn)組織和政府組織，也將價值對齊視作重要目標(biāo)。這也讓我們看到，讓AI與人類的價值對齊是一件非常急迫的事情，可以說，如果沒有價值對齊，我們就不會真正信任AI，人機協(xié)同的AI時代也就無從談起。