一場還不入局就會被淘汰的游戲,已經在全球拉開帷幕。 去年底,自ChatGPT這個略顯拗口的名字在全球引爆對話式風潮,微軟、亞馬遜、谷歌等大廠入局其中的消息,就像接連丟進水中的石子,不斷在科技領域激起浪花。 其中,微軟作為ChatGPT背后母公司的投資人最早押下重注,于本周宣布在所有產品線內集成ChatGPT能力。而當ChatGPT將取代搜索引擎的論調甚囂塵上,谷歌也坐不住了,于北京時間2月7日宣布將推出自己的對話式機器人"Bard"(吟游詩人)。 就在同天,百度官宣將基于自家的文心大模型,推出類ChatGPT的產品"文心一言"。當日下午,國內搜索引擎市場的第二名360緊隨其后,披露自家已在內部使用這類產品,同樣計劃盡快推出類ChatGPT的Demo版產品。消息發(fā)出兩小時后,其股價應聲漲停。 新消息還在持續(xù)。北京時間2月8日凌晨,微軟在媒體發(fā)布會上宣布開放ChatGPT支持的搜索引擎Bing。 而在官宣消息紛飛的背后,不難發(fā)現幾乎每個追趕ChatGPT的大廠,都在提及"大模型"的概念。 百度在短短數行的官宣中,專門花去一段介紹自家的AI四層架構布局,并重點提及文心大模型。谷歌CEO桑達爾·皮查伊也表示,自家的AI對話式機器人"Bard"(吟游詩人),由大模型LaMDA提供支持。 360的披露十分坦率,表示自家布局ChatGPT類產品的優(yōu)勢在于數據和語料,在預訓練大模型方面還存在短板。 ChatGPT和大模型是一體兩面的關系。表面看,ChatGPT是一個具備聊天、咨詢、撰寫詩詞作文等能力的對話式機器人。但本質上,它是基于AI大模型而產生的應用——如果沒有大模型的能力支撐,如今引爆全球的ChatGPT或將不會誕生。 一. 爆火背后:由大模型打開的ChatGPT魔盒ChatGPT能達到如今"上知天文、下知地理"的效果,離不開基于海量數據而生的大模型——是大模型,讓它理解并使用人類語言,并近乎真實地進行對話和互動。 海量數據是大模型的基礎。顧名思義,這是一種通過億級的語料或者圖像進行知識抽取、學習,進而產生的億級參數模型。而ChatGPT,是OpenAI GPT-3模型的升級。在參數量上,GPT-3模型擁有1750億參數。 這帶來超乎想象的突破——基于大量文本數據(包括網頁、書籍、新聞等等),ChatGPT獲得了對不同類型的話題進行回答的能力。再加上學習方法的差異性,ChatGPT能夠發(fā)散式地解答問題。 大模型不是新鮮事物,在2015年左右業(yè)內已有討論。但在大模型出現的背后,其實蘊藏著一場人工智能落地模式的變革。 作為人工智能最重要的組成部分之一,機器學習的落地長期依賴數據模型。它需要大量的數據來訓練模型,以便讓計算機系統(tǒng)得以從數據中進行學習。 簡單從效果總結,當數據量越大,機器學習得以學習的基礎越多,讓效果更精準、更智能的可能性就越高。 這也意味著,在數據量不夠大的過去,機器學習的發(fā)展會受到阻礙。而伴隨著PC和移動互聯的進展,機器學習生存的基礎——數據量也呈幾何式增長。由此產生的一個現象是,從1950年到2018年,模型參數增長了7個數量級。而在2018年之后的4年內,模型參數增長了5個數量級,從數億個達到超千億水平。 也就是說,當數據量充足,機器學習就具備進一步升級的可能,而這個可能性在2018年已經存在。 但是,僅有數據還不夠,伴隨著數據使用而來的,還有遞增的成本——機器學習環(huán)節(jié)中使用的數據量越大,所需的數據標注、數據清洗、人工調參等成本也就越高。高質量的標注數據難以獲得,讓整件事的投入產出比打了折。 為了解決這個問題,機器學習的落地方式也發(fā)生變化。 如今,機器學習主要分為監(jiān)督學習、無監(jiān)督學習和半監(jiān)督學習三種學習方法。大模型,與無監(jiān)督學習、半監(jiān)督學習息息相關。 早前,構建機器學習的主流方法是監(jiān)督學習。也就是先收集數據,再通過強人工干預/監(jiān)督的方式,喂給模型一套經過人工校驗的輸入和輸出組合,讓模型通過模仿,完成學習。 “在完成標注、清洗環(huán)節(jié)后,我會給機器輸入一組數據,并反饋學習結果的正確或者錯誤,讓它找到參數之間的關聯并進行優(yōu)化?!币晃辉鴧⑴c過算法調優(yōu)的產品經理表示。 而無監(jiān)督學習不需要打標,而且在訓練數據中,只給定輸入,沒有人工給出正確的輸出,目的是讓模型開放式地、自己學習數據之間的關系。 半監(jiān)督學習則處于兩者之間。在這種學習方式中,模型會嘗試從未標記的數據中提取信息來改進它的預測能力,同時也會使用已標記的數據來驗證它的預測結果。 也就是說,相比過去的監(jiān)督學習,無監(jiān)督學習和半監(jiān)督學習節(jié)省了更多成本,降低了對高質量標注數據的依賴。 “如果沒有無監(jiān)督學習,大模型很可能是訓練不出來的。”一位橫跨學術、商業(yè)兩界的AI專家不久前告訴36氪。 當然,ChatGPT能橫空出世,降低成本并不是最重要的。 在監(jiān)督學習的模式下,人工"調教"的數據經常來自于一些屬于屬于特定領域、整體數量不大的數據集。這會導致,一旦某個領域的模型要應用到其他領域,就會出現難以適應的情況,也就是所謂的"模型泛化能力不佳"。 舉個例子,在問答數據集上表現不錯的模型,用到閱讀理解上很可能產生不盡如人意的結果。 而大模型的誕生,能夠相對解決"泛化能力"不佳的問題,也就是變得更通用。 這背后也是因為,大模型基于互聯網公開的海量數據進行訓練,沒有以特定的小數量數據作為基礎。這種方式,更可能訓練出一套適用多個場景的通用基礎模型——這同樣是ChatGPT能回答各種五花八門問題的重要原因。 總而言之,大模型的落地是機器學習的一個里程碑,也是打開ChatGPT魔盒的關鍵鑰匙。 二. GPT系列:落地大模型的"自我革命"回顧ChatGPT的迭代,可以看到一部大模型自我升級的歷史。在這個過程里,OpenAI至少進行了三次技術路線的"自我革命"。 前文提到,ChatGPT基于OpenAI的第三代大模型GPT-3升級而來,也就是在GPT3.5上進行微調而誕生。 從名稱也能看出,OpenAI此前還發(fā)布了GPT-1、GPT-2和GPT-3。這幾代GPT的落地方式不盡相同。 第一代生成式預訓練模型GPT-1于2018年被推出。GPT-1的學習方式是半監(jiān)督學習,也就是先用無監(jiān)督學習的方式,在8個GPU上花費1個月從大量未標注數據中學習,然后再進行有監(jiān)督的微調。 這樣做的好處是,只需要少量微調,就可以增強模型的能力,減少對資源和數據的需求。 但問題在于,GPT-1的數據較少,和如今的動輒千億對比,當時1億多的參數量似乎少的可憐。這使得,GPT-1模型整體對世界的認識不夠全面和準確,并且泛化性依然不足,在一些任務中的性能表現不佳。 在GPT-1推出一年后,GPT-2正式面世。這一代的GPT在底層架構上和"前輩"沒有差別,但在數據集方面,GPT-2有著40GB的文本數據、800萬個文檔,參數量也大幅突破到了15億個。 有研究顯示,參數量爆發(fā)的GPT-2,生成的文本幾乎與《紐約時報》的真實文章一樣令人信服。這也讓更多人意識到無監(jiān)督學習下,大模型的價值所在。 伴隨著每年一更新的頻率,2020年,GPT-3如約而至。這次的GPT-3,在模型參數上達到了1750億個,類型上也包含了更多的主題文本。相對GPT-2,這次的新版本已經可以完成答題、寫論文、文本摘要、語言翻譯和生成計算機代碼等任務。 需要指出的是,此時的GPT-3依然走的是無監(jiān)督學習、大參數量的路線,而到了2022年,情況發(fā)生了不小的變化。 這一年,在GPT-3的基礎上,OpenAI推出了InstructGPT。OpenAI表示,InstructGPT 是 GPT3 的微調版本,在效果上降低了有害的、不真實的和有偏差的輸入。而ChatGPT與InstructGPT除卻訓練模型的數據量不同,并無太大差異。 問題來了,為什么InstructGPT和ChatGPT可以進一步提升智能性,優(yōu)化人們的交互體感? 背后原因在于,OpenAI在2022年發(fā)布的這兩個模型,從技術路線上又開始看重人工標注數據和強化學習——也就是從人類反饋(RLHF) 中強化學習。據介紹,這一次OpenAI使用一小部分人工標記的數據來構建獎勵模型。 粗看下來,無監(jiān)督學習下的大模型路線特點在于數據量大,和降低數據標注和人工依賴——這是GPT-2和GPT-3的核心。 而InstructGPT和ChatGPT的路線,則像是階段性重回了人工路線。 這種變化看似劇烈,但其實是為了讓AI產品更好用而產生的調整。拆解背后邏輯,ChatGPT的訓練離不開GPT-3.5的大模型基礎,但其中引入的人工標注數據和強化學習,則可以讓大模型更理解信息的含義,并進行自我判斷——也就是更貼近理想中的人工智能效果。 也就是說,之前的無監(jiān)督學習給定輸入,不給出正確的輸出,讓模型得以在海量數據的基礎上"自由發(fā)展",具備人工智能的基本素質。 但此時加入人類對大模型學習結果的反饋,會讓模型更理解輸入自身的信息和自身輸出的信息,變得更好用。落在具體場景中,經過人類反饋的ChatGPT,可以提升判斷用戶提問意圖(即輸入)和自身答案質量(即輸出)的能力。 為了達成更好的效果,有信息顯示,OpenAI招聘了40個博士來進行人工反饋工作。 對人工智能中的人力工作先拋棄再撿回,這看似前后矛盾的做法,也得到不少行業(yè)人士肯定。 比如,京東集團副總裁、IEEE Fellow何曉冬不久前對媒體表示,相較之前大量使用無監(jiān)督深度學習算法,ChatGPT模型背后的算法和訓練過程更加新穎。如果沒有人的數據甄選,模型參數即便大十幾倍,也很難達到如今效果。 “在某種意義上,這其實是對過去一味追求(參數)大和追求無監(jiān)督學習的一個路線修正。”何曉冬總結。 當然,即使重新重視人工反饋,也不意味著OpenAI完全放棄此前的堅持。有分析指出,ChatGPT的訓練主要分為了三個階段,前兩個階段人工反饋非常重要,但在最后一公里上,ChatGPT只需要學習在第二階段訓練好的反饋模型,并不需要強人工參與。 無論是 GPT-1、2、3還是InstructGPT和ChatGPT,OpenAI這五年的模型迭代之路似乎也是一場自我改革。 這同樣說明,把某類技術推演到極致,并不是這家公司的堅持——不論是無監(jiān)督學習、自監(jiān)督學習還是半監(jiān)督學習,從來不是為了煉就大模型,而是想讓AI更智能。 三. 大廠收割大模型,但"煉"模型不是終點即便大模型的能力隨著ChatGPT的爆紅而走向臺前,但業(yè)界的爭議依舊無法掩飾。 從商業(yè)模式來看,當大模型變得更通用,更多企業(yè)可以依賴大模型的基礎,進行更偏自身業(yè)務屬性的微調。這樣做在理論上的好處是,不少企業(yè)可以省去很多訓練模型的成本,而推出大模型的公司,可以向前者收取調取大模型的費用。 但36氪發(fā)現,這一思路當前也在被一些產業(yè)人士"吐槽"。 一家AIGC公司的創(chuàng)始人告訴36氪,這件事不僅是錢和成本的問題,重點是調用第三方大模型存在很多限制,會對自家業(yè)務造成影響。 "比如,你很難針對一些應用場景來做優(yōu)化。"他舉例,如果想做聲音模擬和形象模擬的綜合型需求,需要模型提供方提供綜合能力,而一旦有一個技術點不到位,就會導致產品效果不佳。 吐槽效果之外,36氪還了解到業(yè)內有公司在通過算法優(yōu)化的方式,期望降低大模型落地的成本。 但本質上,大模型無疑是一個天生適合巨頭的生意——這從其成本投入上可見一斑。 從流程上拆解,構建一個大模型至少需要足夠的數據處理、計算和網絡能力。 拿流程上游的數據處理來說,無監(jiān)督學習能解決一部分數據標注的成本,但此前的數據收集、數據清洗成本依然難以降低。而且這些工作經常需要依賴人工,難以完全工具化, 再看計算和網絡,大模型的訓練任務場景動輒需要幾百甚至幾千張GPU卡的算力。這意味著在算力之外,當服務器節(jié)點眾多,跨服務器通信需求大,網絡帶寬性能亦成為GPU集群瓶頸,高性能計算網絡也隨之成為一個話題。 具體的數字更具說服力。有報道指出,Stability AI此前僅計算就需要花費約2000萬美元。而如果僅拿大模型去做微調和推理,本地也需要好幾千GB的內存。潞晨科技創(chuàng)始人尤洋也曾提及,想把大模型部署到生產線,若一個企業(yè)從零開始自己做會需要70人左右的人力。而在歐美地區(qū)光是養(yǎng)活70個人,成本就需要2000萬美金。 大廠對大模型的高價入場券并不諱言。去年年底,一位國內頭部互聯網公司的數據部門負責人對36氪直言,如果中型公司想要復刻大模型之路,在他看來是一個十分不經濟、不理性的行為。他進一步表示,就算是這家市值早超百億美元的公司,做大模型的初衷也是為服務自身內部的業(yè)務——也就是讓需要AI能力的各業(yè)務部門擁有統(tǒng)一的能力支撐,避免多重內耗。 所以,大廠收割底層大模型,中小公司選取更適合自己業(yè)務特點的大模型,并基于此建立起行業(yè)應用,是相對合理的路線。換言之,AI領域會重現國內云計算的格局。 大廠熱情勃發(fā),帶來另一個有趣現象,就是自2020年起,中國的大模型數量驟增。根據統(tǒng)計,僅在2020年到2021年,中國大模型數量就從2個增至21個,和美國量級同等,大幅領先于其他國家。 來源:IDC 即便剔除大廠的勁頭,這一現象的出現也有著國情合理性。首先,大模型底層更依賴工程能力,再加上中國作為人口和移動互聯大國,數據量天然眾多。這兩個前提,讓中國天生具備打造大模型的優(yōu)勢。 然而不論是國內還是國外,大模型都同時面臨著一個靈魂拷問——當數據量越疊越大,底層算力又無法承載時,大模型之路是否還能走通?這一問題對中國來說更需重視,畢竟國內對底層硬件能力的突破,還處于漫漫征途中。 或許對中國的從業(yè)者而言,這次ChatGPT的爆紅只是一個表面現象,更深的啟示在于看到OpenAI對大模型落地的"自我迭代"。 畢竟,這家公司已用至少五年的自我博弈過程告訴所有人,一味"煉"就大模型不是目的,讓AI真正可用好用,才是終章。 參考文獻: 《透過ChatGPT的進化足跡,OpenAI傳達了哪些信號?》,腦極體 《百度類ChatGPT產品將在3月完成內測 業(yè)內人士:謹慎樂觀》,財聯社 《ChatGPT爆火,揭秘AI大模型背后的高性能計算網絡》,InfoQ |
|