最終,每個(gè)人都會(huì)擁有一個(gè)自己的AI伙伴。大模型火火火火火足兩年了,如今的大模型江湖,是什么模樣?攤開全球畫卷,OpenAI依舊在通用大模型領(lǐng)域一騎絕塵,但整個(gè)生態(tài)百花齊放——有擅長(zhǎng)長(zhǎng)文本的Claude、開源王者Llama、開源新秀Mistral、畫圖王者M(jìn)idjourny……到底什么才是評(píng)估大模型的第一要義?參數(shù)、規(guī)模、價(jià)格、榜單排名?似乎都還不夠,或許只有能腳踏實(shí)地在人們的生活和工作里用上大模型,并且夠穩(wěn)定、不出錯(cuò),才是千千萬(wàn)萬(wàn)企業(yè)和用戶最為關(guān)心的話題。對(duì)如今的大模型領(lǐng)域,必須要再度搬出那句程序員的老話:Talk is cheap,Show me the code。現(xiàn)在,打開字節(jié)跳動(dòng)旗下的AI“扣子”平臺(tái),就能看到成百上千的bot,正在參與一場(chǎng)火熱PK。從2024年2月1日上線以來,扣子已經(jīng)接入了多個(gè)國(guó)內(nèi)知名大語(yǔ)言模型,包括豆包、通義千問、智譜、MiniMax、Moonshot、Baichuan等等——宛如琳瑯滿目的大模型“貨架”,無論是哪家大模型,小中大尺寸,應(yīng)有盡有。無論是學(xué)英語(yǔ)、編程、寫文案,算命,民間高人們?cè)谶@些模型上開發(fā)出來的應(yīng)用,可以說是五花八門。但到底怎么樣才能在這些場(chǎng)景用得最好?扣子模型廣場(chǎng)簡(jiǎn)單直接地提供了對(duì)比評(píng)測(cè)的平臺(tái)。如果你是一位小紅書博主,就可以直接打開扣子里的小紅書文案生成器,搭載兩個(gè)不同的大模型,實(shí)時(shí)測(cè)試比對(duì)。兩個(gè)Bot都使用了同樣的Prompt和插件,但無論是響應(yīng)速度還是返回的內(nèi)容,在實(shí)時(shí)測(cè)試?yán)?,效果?duì)比一目了然。如同游戲一樣,扣子模型廣場(chǎng)提供了多種有趣的玩法,包括指定Bot對(duì)戰(zhàn)、隨機(jī)Bot對(duì)戰(zhàn)、純模型對(duì)戰(zhàn)。比如,在隨機(jī)對(duì)戰(zhàn)中,系統(tǒng)就會(huì)隨機(jī)選擇一個(gè)Bot,進(jìn)行模型對(duì)戰(zhàn)。這適用于評(píng)測(cè)模型在任意業(yè)務(wù)場(chǎng)景下的文本生成、技能和知識(shí)調(diào)用等能力——PK的兩個(gè)模型都是匿名的,基于 Bot 的Prompt、工作流、知識(shí)庫(kù)等能力配置,回答用戶的問題。PK則過程完全向用戶公開。前來觀光的用戶,可以通過模型對(duì)戰(zhàn)與兩個(gè)隱藏了模型的Bot實(shí)時(shí)對(duì)話,并根據(jù)模型的回答進(jìn)行投票。投票結(jié)束后,廣場(chǎng)才會(huì)揭秘具體的模型。PK也不只是純看用戶投票。結(jié)果公示后,用戶則可以展開結(jié)果頁(yè)面,查看兩個(gè)模型的詳細(xì)配置,包括生成多樣性、生成隨機(jī)性等配置參數(shù)。 從2022年年底ChatGPT爆火,到如今Sora、Midjourney等多模態(tài)模型的成果震撼人心,到現(xiàn)在的扣子模型廣場(chǎng)的推出,無疑是大模型生態(tài)日漸成熟后,向應(yīng)用層的“上探”——人們不再討論數(shù)字,而是開始考慮是否可用??v觀整個(gè)AI領(lǐng)域的發(fā)展脈絡(luò),這也是大模型新技術(shù)走向To C化的重要一步。 大模型爆火兩年后:這么近,那么遠(yuǎn) 回溯人類科技史,大概很少有技術(shù)像大模型一樣,以狂風(fēng)驟雨般的速度讓全社會(huì)都形成共識(shí):這是一項(xiàng)能夠切實(shí)提升生產(chǎn)力,改變未來的新技術(shù)。從ChatGPT背后搭載的GPT-3.5,到GPT-4和最新的GPT-4o,過去兩年中里的通用大模型經(jīng)歷了過山車一般的發(fā)展速度。大模型、芯片廠商還在共同大煉模型,試圖探索Scaling Law(縮放定律,不斷擴(kuò)大參數(shù)規(guī)模和數(shù)據(jù)量,能得到更強(qiáng)的模型能力)的極限。僅僅以參數(shù)量來衡量,GPT-3.5參數(shù)量是1760億,這還是一個(gè)閉源模型;到了今年,人們所能用到的最先進(jìn)開源模型Llama 3,參數(shù)量就已經(jīng)超過4000億。更大的參數(shù)、數(shù)據(jù)量,就像土壤,是模型能力的基礎(chǔ),但土壤上能夠長(zhǎng)出什么樣的應(yīng)用——是苔蘚還是參天大樹,考驗(yàn)的是模型“有多聰明”。動(dòng)輒數(shù)千億參數(shù)的模型可以展現(xiàn)技術(shù)前沿,如今的模型創(chuàng)新者們正在努力把模型做小。這相當(dāng)于將模型“蒸餾”,讓更小的模型能夠擁有更強(qiáng)大的性能。2023年9月發(fā)布的Mistral 7B(70億參數(shù))就是小模型派的代表,能夠打敗130億參數(shù)的Llama 2模型。到了2024年,“小模型”的趨勢(shì)更加勢(shì)不可擋。Meta旗下的Llama 3發(fā)布后,旗下80億模型(8B)的性能,就比上一代的Llama 2 700億參數(shù)模型還要強(qiáng),因此在文本、數(shù)學(xué)、編程方面的能力大大增強(qiáng)。究其原因,這是由于Llama 3“學(xué)習(xí)”的數(shù)據(jù)密度足夠豐富——用了 15 萬(wàn)億 Token 的訓(xùn)練數(shù)據(jù),這比Google旗下的Gemini同等模型多學(xué)了一倍還不止。但盡管如此,一個(gè)現(xiàn)實(shí)是,現(xiàn)在的大模型依舊面臨著“隔岸觀火”的尷尬境地:在開發(fā)者圈內(nèi),模型進(jìn)展日新月異,性能更強(qiáng),用例也越來炫目;但在對(duì)岸,則是“看在眼里急在心里”,困惑于如何用上大模型的普通用戶。實(shí)際上,大模型離人們的工作和日常生活的距離還很遠(yuǎn)。數(shù)據(jù)就有所印證——MIT的一項(xiàng)研究顯示,但就計(jì)算機(jī)視覺(CV)這個(gè)領(lǐng)域來看,今天能夠自動(dòng)化的工作,占美國(guó)經(jīng)濟(jì)中占工人薪酬1.6%的任務(wù)(不包括農(nóng)業(yè)),但只有23%的薪酬任務(wù)(占整個(gè)經(jīng)濟(jì)的0.4%)按自動(dòng)化是更劃算的。AI如今在人類工作流中所占據(jù)的比例,還非常小。對(duì)普通的C端用戶來說,AI應(yīng)用更多是一個(gè)“一輪游”的存在。過去兩年中火爆的AI應(yīng)用,很多迎來大批試用、試玩的用戶之后,真正留下的日活、周活用戶寥寥無幾。真正核心受眾,停留在專業(yè)開發(fā)者、垂直領(lǐng)域的專業(yè)人員(如設(shè)計(jì)師、運(yùn)營(yíng)、寫手等等)。一方面,這是由于底層的通用大模型能力還需要不斷提升,如今的模型還有幻覺等等可控性問題,都未得到很好地解決;此外,模型的記憶能力還處在比較小的階段,還無法真正做到記住用戶的喜好、習(xí)慣等等,更復(fù)雜的交互也無從談起。這導(dǎo)致如今的各類AI應(yīng)用能落地的地方,集中在容錯(cuò)率較高的創(chuàng)作類場(chǎng)景中,如寫文案、畫畫、對(duì)話等等,或是基于語(yǔ)言大模型的簡(jiǎn)單游戲。更重要的是,交互層面的門檻尚處在高位——和大模型對(duì)話,對(duì)話深度有限,還需要用戶研究怎么寫Prompt(提示詞),數(shù)據(jù)訓(xùn)練也有不小的理解門檻。企業(yè)端用戶想要用上大模型,更是想要跨越選型、微調(diào)等工作。一言以蔽之:大模型,依舊有著艱深的理解和應(yīng)用成本。所以,真正到了輔助決策類——企業(yè)核心工作流中,大模型其實(shí)還沒辦法達(dá)到可用狀態(tài)。比如,根據(jù)數(shù)據(jù)分析廠商“九章數(shù)據(jù)”的統(tǒng)計(jì),在數(shù)據(jù)分析場(chǎng)景里,用大模型生成SQL(結(jié)構(gòu)化查詢語(yǔ)言,一種數(shù)據(jù)庫(kù)的核心語(yǔ)言)準(zhǔn)確性約在70%左右,但剩下的30%,還需要專家人工手動(dòng)檢查,這就失去了以AI提升效率的意義。大模型和用戶側(cè),現(xiàn)在就如同漸近線一般,需要找到能夠在技術(shù)和場(chǎng)景上相匹配之處,讓用戶真正“用起來”。在剛結(jié)束不久的“AI屆春晚”智源大會(huì)上,智源研究院院長(zhǎng)王仲遠(yuǎn)就表示:“國(guó)產(chǎn)大模型已經(jīng)開始無限接近 GPT-4,這意味著基礎(chǔ)模型已達(dá)到可用的狀態(tài),但當(dāng)它達(dá)到可用狀態(tài)開始賦能千行百業(yè),進(jìn)入各行各個(gè)垂直領(lǐng)域,還需要找到更好的產(chǎn)業(yè)生態(tài)和合作模式?!?/span> AI應(yīng)用,爆發(fā)前夜 很多人會(huì)將大模型的爆火,比作如同移動(dòng)互聯(lián)網(wǎng)那樣的歷史機(jī)遇。這樣瞬間可喚醒很多人的記憶——如今層出不窮的AI應(yīng)用,就和移動(dòng)互聯(lián)網(wǎng)時(shí)期的App混戰(zhàn),如出一轍。如果參照歷史規(guī)律,從個(gè)人電腦帶來的PC互聯(lián)網(wǎng)時(shí)代,再到移動(dòng)互聯(lián)網(wǎng)時(shí)代,每一次技術(shù)革新后到大量應(yīng)用出現(xiàn),幾乎都需要經(jīng)過2-3年以上的時(shí)間——2007年,蘋果推出iPhone 1,定義了移動(dòng)互聯(lián)網(wǎng)時(shí)期的交互形式,直到兩年后,Uber、Whatsapp、Instagram等產(chǎn)品才依次出現(xiàn),成為席卷全球的應(yīng)用。這期間發(fā)生了什么?底層的技術(shù)變革繼續(xù)進(jìn)行,不斷讓成本下降到可以商用的水平,大量應(yīng)用創(chuàng)新才得以出現(xiàn)。這會(huì)進(jìn)一步倒逼基礎(chǔ)設(shè)施的變革——云計(jì)算、大數(shù)據(jù)等行業(yè),正是由于大量移動(dòng)終端增加,人們?cè)诰€時(shí)長(zhǎng)也在不斷增加。如今的AI領(lǐng)域,也同樣站在了技術(shù)革新到應(yīng)用繁榮的臨界點(diǎn)上。伴隨著大模型技術(shù)革新,應(yīng)用創(chuàng)新已漸有燎原之勢(shì)。2023年,GPT-4發(fā)布后,OpenAI隨即在11月上線GPTs商店,開發(fā)者用簡(jiǎn)單的套殼,就可以馬上做出各式各樣的應(yīng)用,短短兩個(gè)月內(nèi),辦公、設(shè)計(jì)、生活、教育、科研、編程等各個(gè)領(lǐng)域超過300萬(wàn)個(gè)GPTs,如同雨后春筍般出現(xiàn)。而前不久的WWDC大會(huì)上,蘋果正式官宣與OpenAI的合作——將把ChatGPT集成到iPhone、iPad和Mac設(shè)備中——宛如當(dāng)年的App Store重現(xiàn)。據(jù)Gartner技術(shù)成熟度曲線顯示,現(xiàn)在,大模型領(lǐng)域的生成式AI(Generative AI)和基礎(chǔ)模型(Foundation Models)都處于膨脹的巔峰期,再往下走,就是應(yīng)用爆發(fā)時(shí)期。來源:Gartner不過,但中間還有許多工作需要完成。大模型技術(shù)浪潮爆發(fā)后,從底層的芯片、中間層的Infra架構(gòu)等等,都在密集而迅速地進(jìn)行一輪變革:GPU芯片需要加強(qiáng)推理效率,而軟件中間層則需要承接大模型的大規(guī)模推理和應(yīng)用需求,在算法層面降低調(diào)用成本。AI的難,在于大模型本身的技術(shù)復(fù)雜性上,而在終端設(shè)備、大模型等“平臺(tái)級(jí)”基礎(chǔ)設(shè)施和前端應(yīng)用之間,如今會(huì)更需要“送水人”的力量——“扣子”等AI應(yīng)用開發(fā)平臺(tái),現(xiàn)在擔(dān)當(dāng)?shù)木褪沁@樣一種角色,讓大模型的能力順利輸送到使用場(chǎng)景之中。比如,對(duì)于一位0編程經(jīng)驗(yàn)的用戶來說,現(xiàn)在開發(fā)AI應(yīng)用幾乎已經(jīng)沒有難度——和“扣子”進(jìn)行交互,短到僅需要一句話即可:至于用什么模型、如何使用模型,也無需了解艱深的專業(yè)名詞才懂得模型的性能幾何。“扣子”的Home Bot就像一位手把手帶你的老師,如何使用模型、平臺(tái)上有什么現(xiàn)成的Bot可以使用,扣子都能給出相應(yīng)的建議。再到開發(fā)過程中,“扣子”現(xiàn)在就已經(jīng)像是一個(gè)開箱即用的工作臺(tái)一樣,給用戶提供了豐富的組件選擇——插件、工作流、圖像流、觸發(fā)器等等。如此一來,用戶開發(fā)的,就再也不局限于簡(jiǎn)單的套殼應(yīng)用,而是可以通過聯(lián)動(dòng)api、封裝好的模塊等等,完成復(fù)雜任務(wù)的執(zhí)行。從去年年底上線以來,“扣子”平臺(tái)上就已經(jīng)有不少有趣的用例。比如,一位汽車發(fā)燒友,為了解答身邊諸多好友的選車問題,就使用“扣子”的工作流功能,添加了 5 個(gè)節(jié)點(diǎn),最后實(shí)現(xiàn)根據(jù)用戶需求搜索車型、對(duì)比參數(shù),到最終輸出圖文并茂的購(gòu)車建議。在5月15日的火山引擎FORCE原動(dòng)力大會(huì)上,曾經(jīng)展示過一個(gè)案例,一位五年級(jí)學(xué)生開發(fā)出了一個(gè)名為“青蛙外教”的智能體,并且已經(jīng)將其分享給了同學(xué)朋友們一起使用。從某種意義上來說,“扣子”等AI應(yīng)用開發(fā)平臺(tái)的最重要意義,就是將原來AI應(yīng)用覆蓋的開發(fā)者群體,向外延展到所有主流用戶當(dāng)中。在大模型本身還無法解決端到端的問題時(shí),發(fā)動(dòng)所有人的力量來開發(fā)各式各樣的應(yīng)用,才能讓大模型生態(tài)加速發(fā)展。而“模型廣場(chǎng)”這樣的PK形式,更是向市場(chǎng)發(fā)出了寶貴的信號(hào):對(duì)于大模型這類更強(qiáng)調(diào)“因地制宜”,擅長(zhǎng)解決智力密集型需求的技術(shù)而言,盲目刷榜、比拼參數(shù)已經(jīng)沒有意義。模型廠商和開發(fā)者,都應(yīng)當(dāng)將注意力放到一個(gè)個(gè)的應(yīng)用場(chǎng)景中——設(shè)身處地地了解用戶反饋,才可能真正找到這一階段的PMF(Product Market Fit)。 等待下一個(gè)Killer App 如果將國(guó)內(nèi)大模型火熱的這兩年,劃分出演進(jìn)的歷程:前半程,所有人焦急于大模型什么時(shí)候可以趕上GPT-3.5,而從2023年下半年開始,話題陡然轉(zhuǎn)變成了:超級(jí)應(yīng)用何時(shí)到來?這種討論在2024年上半年達(dá)到頂峰。市場(chǎng)分化出兩種截然不同的態(tài)度——不少開發(fā)者相信,隨著模型規(guī)模擴(kuò)大、智能水平提高,應(yīng)用能力就自然會(huì)發(fā)展出來,因此需要集中精力、資源投入到底層大模型中;而另一面則更現(xiàn)實(shí)主義——做大模型過于昂貴,試錯(cuò)成本太高。有投資人覺得,最好的方式是“見好就收”,尋找馬上就能商業(yè)化的場(chǎng)景。兩種態(tài)度所聚焦的問題,都是AI應(yīng)用。近期,大模型圈內(nèi)的不少動(dòng)作,正在加速AI應(yīng)用的落地進(jìn)程。就在5月,大模型領(lǐng)域剛剛迎來一次狂風(fēng)暴雨一樣的降價(jià)潮——包括智譜、Deepseek、豆包、阿里、騰訊、訊飛在內(nèi)的主流大模型廠商,都宣布了一輪模型降價(jià)。就以字節(jié)旗下的火山引擎為例,5月,豆包大模型矩陣集體降價(jià)。現(xiàn)在,豆包主力模型在企業(yè)市場(chǎng)的定價(jià)就降至0.0008元/1000 Tokens,比行業(yè)價(jià)格降低99.3%。相當(dāng)于,用戶用1塊錢,就能處理3本《三國(guó)演義》。將模型價(jià)格打到地板價(jià),固然有市場(chǎng)競(jìng)爭(zhēng)考慮,但更核心的著眼點(diǎn),其實(shí)還是擴(kuò)大開發(fā)者群體——開發(fā)AI應(yīng)用的試錯(cuò)成本太高,導(dǎo)致長(zhǎng)期以來,真正嘗試做AI應(yīng)用的人群太少。但在模型降價(jià)后,開發(fā)一個(gè)模型可能只需要百元、千元級(jí)別。以往對(duì)AI應(yīng)用的開發(fā)顧慮,已經(jīng)不再是問題。反過來說,AI應(yīng)用供給增加,受眾擴(kuò)大,也會(huì)反哺到模型的開發(fā)當(dāng)中?!坝脩粢?guī)模的擴(kuò)大,也將提升大模型的性能?!被鹕揭婵偛米T待表示。大的模型使用量,才能打磨出好模型,也能大幅降低模型推理的單位成本。類似的“好信號(hào)”還有不少。進(jìn)入2024年,多模態(tài)模型的進(jìn)展同樣令人欣喜——無論是國(guó)外的Sora、GPT-4o、還是近期國(guó)內(nèi)Dreamina、可靈等多模態(tài)模型爆火,都徹底點(diǎn)燃了用戶對(duì)視頻、圖像領(lǐng)域應(yīng)用的興趣。破圈的AI換臉、AI翻譯、虛擬人跳舞等玩法越來越多。這背后,都離不開多模態(tài)的技術(shù)突破、模型推理成本的降低,以及中間層的逐步完善。相對(duì)應(yīng)的,現(xiàn)在的“扣子”平臺(tái)也已經(jīng)匹配上AI技術(shù)普及的腳步。在近期的更新中,扣子就已經(jīng)開始支持存儲(chǔ)重要內(nèi)容為關(guān)鍵變量、數(shù)據(jù)庫(kù)——相當(dāng)于給Bot外掛了一個(gè)記憶模塊。而在交互體驗(yàn)上,“扣子”也支持配置開場(chǎng)白、用戶問題建議、快捷指令、背景圖片、語(yǔ)音等等,還支持卡片格式輸出形式。簡(jiǎn)單來說,如果用戶現(xiàn)在想要開發(fā)一個(gè)能翻譯、像真人一樣講話的虛擬人,操作也已經(jīng)非常簡(jiǎn)單——在扣子上選擇合適的通用大模型,就可以簡(jiǎn)單訓(xùn)練出一個(gè)會(huì)說話,而且交互非常真實(shí)的AI助手。并且,“扣子”可以將構(gòu)建的 Bot 直接發(fā)布到飛書和微信等平臺(tái),無縫嵌入到各類生產(chǎn)力工具中。可以預(yù)見的是,隨著AI應(yīng)用落地門檻進(jìn)一步降低,新一輪市場(chǎng)競(jìng)賽會(huì)迅速開始。這將讓市場(chǎng)跨過這一段尷尬的“應(yīng)用真空期”——只有真正讓AI切實(shí)地融入人人可感知、可使用的產(chǎn)品之中,才可能消弭許多焦慮、矛盾,或是令人不安的未知狀態(tài)。而眼下,那句程序員群體的老話,或許應(yīng)該改成:Talk is cheap,show me the CozeBot。
|