2022年取得突破的生成式人工智能是自十多年前移動(dòng)和云計(jì)算興起以來(lái)最引人注目的技術(shù)。平臺(tái)層正在鈣化,我們正目睹著令人興奮的應(yīng)用層的萌芽——這些產(chǎn)品有可能成為數(shù)十億人日常生活的一部分。 搭好舞臺(tái)在過(guò)去十年里,有兩股重要力量推動(dòng)了技術(shù)的發(fā)展:分別是移動(dòng)和云計(jì)算。移動(dòng)促進(jìn)了大型消費(fèi)互聯(lián)網(wǎng)公司的崛起,這些公司基本上都成立于2009年至2013年間。數(shù)字廣告在2010年代迅速轉(zhuǎn)向移動(dòng)設(shè)備,桌面時(shí)代的公司不得不爭(zhēng)先恐后地重塑業(yè)務(wù)。 云計(jì)算則支撐了軟件即服務(wù)(SaaS)的爆發(fā)式增長(zhǎng),并讓數(shù)據(jù)變成企業(yè)最寶貴的資源。這一領(lǐng)域的新興公司基本上也都成立于2009年至2013年之間。2015年到2022年間,存儲(chǔ)在云端的企業(yè)數(shù)據(jù)占比翻了一番。移動(dòng)和云計(jì)算讓2010年代成為技術(shù)領(lǐng)域非常非常好的十年。 2020年代最引人注目且最有可能推動(dòng)技術(shù)發(fā)展的力量是什么?也許是人工智能。人工智能在過(guò)去幾年中得到了顯著改善。我們看到了從Stable Diffusion到Midjourney、ChatGPT到Lensa的一切事物的涌現(xiàn)。人工智能正在成為主流。 我們正處在人工智能的轉(zhuǎn)折點(diǎn),這個(gè)轉(zhuǎn)折點(diǎn)正在支撐起創(chuàng)新的寒武紀(jì)大爆發(fā)2009年至2013年誕生了數(shù)十家由移動(dòng)和云計(jì)算技術(shù)提供支持的變革型初創(chuàng)公司。未來(lái)幾年這樣的公司將再度涌現(xiàn),人工智能將成為催化劑。 AI是泡沫,還是下一個(gè)大事件?答案可能是兩者兼而有之?,F(xiàn)在有很多令人興奮的事情,其中很多是有理由的,但其中很多可能是非理性的、不成熟的,或者兩者兼而有之。但是當(dāng)你將畫面拉遠(yuǎn)時(shí)就能發(fā)現(xiàn),毫無(wú)疑問(wèn)我們正處于一個(gè)激動(dòng)人心的技術(shù)新時(shí)代的風(fēng)口浪尖。 圖像模型2022 年文本生成圖像AI爆發(fā)了。首先出現(xiàn)的是來(lái)自OpenAI的DALL-E。當(dāng)然,不是誰(shuí)都可以直接用DALL-E,但這方面的創(chuàng)作已經(jīng)開始在互聯(lián)網(wǎng)上火起來(lái)了。 對(duì)于這個(gè)世界大部分的地區(qū)來(lái)說(shuō),DALL-E是AI的第一個(gè)真正的“哇哦”時(shí)刻OpenAI的Sam Altman把這一點(diǎn)歸功于圖像所傳遞的情感力量:其實(shí)相對(duì)于 DALL-E,技術(shù)界對(duì) 2020 年推出的GPT-3要更加認(rèn)可。從GPT-3這里,第一次真正感受到了系統(tǒng)的智能。它可以做人做的事情。它的出現(xiàn)讓以前根本不相信AGI(通用人工智能)的人也要認(rèn)真對(duì)待這一話題了。發(fā)生在GPT-3身上的有些事情是我們大家都沒(méi)預(yù)料到的。 但是圖像卻有著獨(dú)特的情感力量。相對(duì)于GPT-3,世界其他地方對(duì)DALL-E的欣賞要高很多。 人往往更喜歡更豐富的媒體格式:照片一直都比文字更受歡迎;與此同時(shí),視頻在使用上一直在蠶食圖片應(yīng)用的市場(chǎng),迫使后者也得向視頻轉(zhuǎn)型。在我看來(lái),類似的偏好也會(huì)發(fā)生在生成式人工智能身上:圖像 > 文本,很快,視頻也會(huì) > 圖像,以及最終沉浸式 3D 體驗(yàn)將 > 視頻。 在 DALL-E 起勢(shì)之后,去年夏天Stable Diffusion和Midjourney的出現(xiàn)徹底改變了局面。Stable Diffusion具有開創(chuàng)性,因?yàn)樗?strong>開源的,這意味著開發(fā)者基于它做開發(fā)。Stable Diffusion將擴(kuò)散從像素空間轉(zhuǎn)移到了潛在空間,從而推動(dòng)質(zhì)量的顯著提高。與此同時(shí),Midjourney 在可訪問(wèn)性方面具有開創(chuàng)性。任何人都可以注冊(cè)一個(gè)免費(fèi)賬號(hào),并獲得25個(gè)積分,圖像則是用公共服務(wù)器生成的。用完 25 個(gè)積分之后,每月支付10美元或30美元就可以繼續(xù)使用。Midjourney已迅速成為 Discord上最受歡迎的服務(wù)器之一,擁有740萬(wàn)會(huì)員。 2022年是圖像模型的轉(zhuǎn)折點(diǎn),生成的圖像質(zhì)量得到了迅速提高。舉個(gè)例子:眾所周知,AI 很不擅長(zhǎng)創(chuàng)作手。除非 AI 具有出色的上下文感知能力,否則很難知道已經(jīng)弄出了多少根手指。其結(jié)果是我們最終會(huì)得到很多有四根或六根手指的手。下圖是Midjourney v3(2022 年 7 月)與Midjourney v4(2022 年 11 月)生成結(jié)果的對(duì)比,你能看出結(jié)果有了明顯改進(jìn):不再會(huì)出現(xiàn)有兩只喙或三條腿的企鵝。 數(shù)字創(chuàng)作的軌跡正在沿著動(dòng)畫的軌跡前進(jìn),但技術(shù)發(fā)展的步伐只會(huì)越來(lái)越快。比方說(shuō),上面Midjourney生成的企鵝圖像之間的差異只是短短幾個(gè)月之間的對(duì)比結(jié)果。 語(yǔ)言模型去年,在圖像模型出現(xiàn)飛躍的同時(shí),語(yǔ)言模型也突飛猛進(jìn)。去年11月, OpenAI推出了ChatGPT,剛推出五天,這款聊天工具就收獲了100萬(wàn)用戶。ChatGPT的表現(xiàn)令人難以置信,有“魔法時(shí)刻”降臨的感覺。 人工智能現(xiàn)在這種發(fā)展和采用的節(jié)奏可以追溯到 2017 年當(dāng)時(shí)國(guó)外某公司發(fā)表的一篇開創(chuàng)性論文《Attention Is All You Need》。這篇論文由Cohere.ai創(chuàng)始人Aidan Gomez與人合著,從中催生出一個(gè)規(guī)模呈指數(shù)級(jí)增長(zhǎng)的“transformer”模型時(shí)代。 不到三年前的GPT-3推出時(shí)的參數(shù)規(guī)模為約2000億,但新的GPT-4將有約 1,000,000,000,000(萬(wàn)億)個(gè)參數(shù)。 在提出新想法、理解上下文以及回憶信息的能力方面,每個(gè)新模型都實(shí)現(xiàn)了飛躍。但更大的模型的訓(xùn)練成本也高很多。訓(xùn)練有數(shù)千億個(gè)參數(shù)的模型可能要花費(fèi)數(shù)百萬(wàn)美元。出于這個(gè)原因,大規(guī)模模型正在成為初創(chuàng)公司創(chuàng)立的基礎(chǔ)。 生成式 AI 的用例手寫文字識(shí)別是最早的人工智能形式之一,郵政服務(wù)主要用它來(lái)讀取信封上的地址。但是人工智能的這個(gè)用例非常特殊。在生成式人工智能方面,我們已經(jīng)看到:圖像和語(yǔ)言模型有了巨大改進(jìn);OpenAI、Hugging Face、Stability.ai等公司提供的寶貴基礎(chǔ)設(shè)施。這兩個(gè)因素相結(jié)合拓寬了用例的可能性。 一說(shuō)到AI和大型語(yǔ)言模型時(shí),人們往往認(rèn)為需要大量專業(yè)知識(shí)。為了處理這些東西,我得了解深度學(xué)習(xí),我可能還得懂微積分或至少線性代數(shù),可是我根本就不太喜歡那種東西。我需要知道怎么給硬件編寫CUDA內(nèi)核程序?這可太嚇人了。 他們疏忽了一點(diǎn),這其實(shí)是個(gè)謬誤。這個(gè)謬誤就好比要想制作顏料,你得是化學(xué)家。所以如果我想成為一名畫家的話,我必須學(xué)習(xí)化學(xué)。但現(xiàn)實(shí)情況是,你不需要知道如何制作顏料就能成為一名偉大的畫家。同理,你不需要弄清楚大型模型是怎么做出來(lái)的,也可以用它們做出出色的產(chǎn)品。 任何人都可以更輕松地開發(fā)出利用AI去畫畫的工具。變革每個(gè)行業(yè)的機(jī)會(huì)已經(jīng)成熟。如果極度簡(jiǎn)化的話,我們可以把用例分為兩類:創(chuàng)意類、生產(chǎn)力類。 說(shuō)到創(chuàng)意,我們看到生成式人工智能降低了創(chuàng)作的門檻。利用Midjourney,你可以給電影制作概念圖。Latitude.ai等公司開發(fā)出AI Dungeon等游戲,利用GPT-3進(jìn)行AI驅(qū)動(dòng)的探索。 就像人工智能增強(qiáng)了創(chuàng)意一樣,人工智能也增強(qiáng)了生產(chǎn)力。我們?cè)谫x予作者和營(yíng)銷人員超能力的工具中就能看到這一點(diǎn),比方說(shuō)像Jasper.ai、Copy.ai、Lex這樣的工具。通過(guò)讓ChatGPT幫我頭腦風(fēng)暴,為自媒體設(shè)計(jì)新標(biāo)語(yǔ),它的推薦令人印象深刻。 我們從Gong身上看到了生產(chǎn)力的提升,它運(yùn)用了AI來(lái)幫助B2B銷售團(tuán)隊(duì)提高效率和效力。我們?cè)?strong>Osmosis身上也能看到這一點(diǎn),它可以幫助廣告代理商生成AI廣告。我們?cè)?strong>GitHub Copilot身上也能看到這一點(diǎn),它可以將自然語(yǔ)言提示轉(zhuǎn)化為數(shù)十種編程語(yǔ)言的編碼推薦,而且從2022 年6月開始,所有開發(fā)者均可用上這款插件。 人工智能(尤其是建立在語(yǔ)言模型基礎(chǔ)之上的人工智能)的早期目標(biāo)是死記硬背的重復(fù)性任務(wù)。但目前有一個(gè)領(lǐng)域被重塑的時(shí)機(jī)已經(jīng)成熟:那就是客戶支持。這些是今天的人工智能已經(jīng)可以取得重大進(jìn)展的領(lǐng)域。更復(fù)雜的任務(wù),比如3D游戲創(chuàng)作,在未來(lái)會(huì)有進(jìn)一步的發(fā)展。但任何涉及人類創(chuàng)作的行業(yè)都會(huì)感受到人工智能的影響。 生成式人工智能很快就會(huì)與其他成熟的技術(shù)發(fā)生沖突,比如VR和AR。想象一下生成沉浸式三維虛擬世界的文本提示。這可能會(huì)在不久之后成為可能。技術(shù)發(fā)展往往非常迅速:在人的一生之內(nèi),我們就從萊特兄弟首次實(shí)現(xiàn)飛行(1903 年)發(fā)展到了將人送上距離地球 384400 公里之遙的月球(1969 年)。而今天出生的人們,他們將目睹人工智能重塑人類生活、工作和社會(huì)的方方面面。 |
|