2012年深度學(xué)習(xí)元年以來,AI進(jìn)入學(xué)術(shù)和商業(yè)界發(fā)展新階段,2017年大模型路線以“通用智能”思路降低算法邊際成本,逐漸成為學(xué)界與產(chǎn)業(yè)共識。2022年下半年,AIGC及ChatGPT關(guān)注度大幅提升背后,我們認(rèn)為其本質(zhì)是弱人工智能到強人工智能的階躍,海外及國內(nèi)商業(yè)落地處在初期,但我們認(rèn)為新的產(chǎn)業(yè)趨勢值得關(guān)注。OpenAI的技術(shù)進(jìn)展及投資方向、海外AI獨角獸業(yè)務(wù)進(jìn)展、國內(nèi)龍頭AI公司的跨模態(tài)布局是重要風(fēng)向標(biāo)。 本文作者:趙麗萍,于鐘海,魏鸛霏 摘要 技術(shù)層面,ChatGPT和AIGC的持續(xù)升溫依托于大模型的技術(shù)紅利。從2012年的深度學(xué)習(xí)元年以來,各界產(chǎn)生了海量的數(shù)字化需求,大模型技術(shù)路線是降低邊際成本的核心,2017年大模型(Transformer)路線逐漸成為學(xué)術(shù)界與國內(nèi)外巨頭的發(fā)展共識。ChatGPT由GPT-3.5大模型加入基于人類反饋的強化學(xué)習(xí)訓(xùn)練而成,帶來弱人工智能向通用智能的階躍。 商業(yè)層面,以O(shè)penAI投資方向為風(fēng)向標(biāo),落地仍在探索期,跨模態(tài)打開場景空間。對于AIGC領(lǐng)域,AI作畫等跨模態(tài)應(yīng)用是未來的發(fā)展趨勢,全球范圍內(nèi)AIGC獨角獸已初步具備B端為主的變現(xiàn)能力,海外落地節(jié)奏顯著快于國內(nèi)。ChatGPT推出后,海外已有早期合作案例,例如為BuzzFeed提供個性化測試、為Amazon解決客戶和工程師技術(shù)難題等。此外,以O(shè)penAI前沿投資方向為錨,我們認(rèn)為文本到圖片/視頻的跨模態(tài)生成、垂直領(lǐng)域AI寫作、智能筆記、AI語言學(xué)習(xí)平臺或為潛在落地方向。 展望未來,行業(yè)格局有望走向底層集中、垂類多點開花,MaaS是商業(yè)模式演進(jìn)的潛在方向。我們認(rèn)為,ChatGPT為代表的模式背后,成本、算力、場景、數(shù)據(jù)等多維度需求鑄就高門檻,大模型路線下,未來行業(yè)格局趨向集中,泛化通用大模型能力的廠商有望呈現(xiàn)多強格局;關(guān)鍵垂類仍可能有場景、數(shù)據(jù)優(yōu)勢,精細(xì)調(diào)優(yōu)后的垂類模型仍有差異化競爭潛力。展望未來的商業(yè)模式,我們認(rèn)為以海外Hugging Face為代表的Model-as-a-Service是潛在方向,具備大模型基礎(chǔ)的龍頭有望成為AI開源基礎(chǔ)設(shè)施提供商、社區(qū)生態(tài)建設(shè)者。 風(fēng)險 技術(shù)進(jìn)展不及預(yù)期,行業(yè)競爭加劇,商業(yè)化落地節(jié)奏不及預(yù)期。 正文 技術(shù)篇:ChatGPT和AIGC持續(xù)升溫背后,本質(zhì)上是大模型的技術(shù)紅利 ChatGPT和AIGC持續(xù)升溫的本質(zhì)是背后的AI大模型進(jìn)入新范式。ChatGPT是基于GPT-3.5的IntructGPT,基于人類反饋的強化學(xué)習(xí)(RLHF)訓(xùn)練的語言類大模型。本文梳理了ChatGPT背后的技術(shù)演進(jìn)與應(yīng)用落地節(jié)奏,并對未來AI行業(yè)的格局加以展望。 從2012年的深度學(xué)習(xí)元年開始,上一輪紅利已經(jīng)持續(xù)10年 2012年是深度學(xué)習(xí)元年,以Hinton團隊在ImageNet大賽中引入深度學(xué)習(xí)算法為重要節(jié)點。Hinton帶領(lǐng)的團隊在ImageNet挑戰(zhàn)賽中,通過構(gòu)建深度神經(jīng)網(wǎng)絡(luò)AlexNet成功將圖片識別錯誤率降低了10.8pcts,以大幅超越第二名的成績奪冠,證明了深度學(xué)習(xí)的發(fā)展?jié)摿?,開始被業(yè)界和資本關(guān)注。 圖表1:AI從引起業(yè)界廣泛關(guān)注到目前不足10年 資料來源:量子位,Omdia,中金公司研究部 早年業(yè)界一度認(rèn)為小模型、小算力是方向。此前的共識是通過精妙的算法和更高的模型精度,減少對算力的需求,但行業(yè)落地實踐證明其短板明顯: ? 精妙模型路線導(dǎo)致重復(fù)研發(fā),無法讓AI賦能千行百業(yè)。在AI公司進(jìn)入大量新場景時,對每個場景都重復(fù)研發(fā)大大增加了邊際成本。 ? 精妙模型路線無法解決長尾場景,完善AI商業(yè)化價值閉環(huán)。以份額占人工智能行業(yè)近一半份額的智慧城市為例,其中的長尾場景如防火防災(zāi)、電梯事故、垃圾亂扔由于研發(fā)難度高,大部分AI公司難以低成本解決,嚴(yán)重影響到客戶對整套解決方案買單的意愿。 圖表2:目前AI模型的神經(jīng)元總量與人類差距較大 資料來源:阿里云《中國企業(yè)2020:人工智能應(yīng)用實踐與趨勢》(2019年),中金公司研究部 技術(shù)演進(jìn)視角,大模型是實現(xiàn)通用AI的重要方向。雖然距離完全達(dá)到人類智能水平的AI,還有很長一段路要走。但近幾年在長尾場景等問題導(dǎo)致了對更通用的人工智能的剛需,在國內(nèi)外巨頭紛紛投入大量資源攻克通用人工智能難題的推動下,通用的語言模型、視覺模型甚至多模態(tài)模型也開始逐漸取得突破。2020年OpenAI推出1750億參數(shù)的GPT-3大模型是行業(yè)重要里程碑,為后續(xù)大模型迭代、加入人為干預(yù),以及AIGC、ChatGPT的推出打下技術(shù)基礎(chǔ)。 圖表3:大規(guī)模預(yù)訓(xùn)練模型對于算力需求呈指數(shù)增長 資料來源:英偉達(dá)官網(wǎng),中金公司研究部 大模型將AI從感知提升到理解的維度 過去的深度學(xué)習(xí)在CV(計算機視覺)領(lǐng)域大放光彩,但本質(zhì)上還是更多的解決感知問題。CNN(卷積神經(jīng)網(wǎng)絡(luò))已經(jīng)能夠較好的解決常規(guī)的人臉識別、物體識別問題,但在NLP(自然語言處理)領(lǐng)域,對于物體、概念的抽象理解、語義的識別和理解,乃至推理和邏輯仍然是巨大的挑戰(zhàn)。Transformer算法(大模型路線)在NLP領(lǐng)域成果卓越,催化NLP的能力從簡單的感知,向深層次的理解乃至推理不斷發(fā)展。 圖表4:模型的參數(shù)大小在不斷提升,性能也在與時俱進(jìn) 資料來源:Jordi Torres.AI,中金公司研究部 圖表5:AI的能力也在從感知向理解、推理、生成攀爬 資料來源:中金公司研究部 如何簡單的理解大模型(大規(guī)模預(yù)訓(xùn)練模型) 基于具備一定通用性的大模型,通過少量的增量訓(xùn)練蒸餾出小模型,是解決長尾問題的關(guān)鍵技術(shù)架構(gòu)。從模型訓(xùn)練到部署,需要通過剪枝、量化、蒸餾等模型壓縮技術(shù)實現(xiàn)更高的經(jīng)濟性及快速推理。以蒸餾為例,可以將結(jié)構(gòu)復(fù)雜、參數(shù)規(guī)模龐大的大模型,壓縮成結(jié)構(gòu)簡單、易于部署的小模型,相比于直接生產(chǎn)的小模型,大模型蒸餾出的小模型具有更強的泛化能力,邊際成本大幅降低。 大模型 小模型的方式能有效降低AI落地邊際成本。由于避免了“手工作坊”式的AI生產(chǎn)方式,不需要每做一個項目就派出大量專家花數(shù)月駐場收集數(shù)據(jù)、調(diào)試模型、訓(xùn)練模型,并且對長尾場景的解決為客戶創(chuàng)造了更多價值。用足夠多的數(shù)據(jù)和足夠大的算法去訓(xùn)練一個足夠大的通用模型,再通過量化、剪枝、知識蒸餾等模型壓縮方法把大模型變小,高效的進(jìn)行模型生產(chǎn),并且由于算法足夠多,能夠覆蓋各種長尾場景,大大降低了復(fù)制成本。因此我們認(rèn)為,大模型是未來AI行業(yè)的必然趨勢。 圖表6:蒸餾技術(shù)是類似于老師-學(xué)生傳遞知識的過程 資料來源:ICCV2019,華為云,中金公司研究部 2020年超大模型GPT-3發(fā)布,衍生出DALL·E與CLIP模型。隨著GPT-3在多個自然語言處理基準(zhǔn)上展現(xiàn)超強性能,該模型延伸至圖像領(lǐng)域,衍生出匹配文字和圖像的CLIP模型,以及由文字生成圖像的DALL·E模型。2022年4月,OpenAI推出DALL·E 2,基于CLIP和Diffusion模型,分辨率提升了4倍,準(zhǔn)確率更高,業(yè)務(wù)更廣:除了生成圖像,還能二次創(chuàng)作。 圖表7:GPT-3衍生出DALL·E與CLIP模型 資料來源:OpenAI官網(wǎng),中金公司研究部 Stable Diffusion由Stability AI公司提出并于2022年7月開源,是AIGC熱度提升的重要驅(qū)動力。Stable Diffusion的重要貢獻(xiàn)在于使用空間降維解決內(nèi)存和模型推理時長痛點,采用Latent Diffusion Model (LDM) 方式,在模型復(fù)雜度和圖像質(zhì)量之間達(dá)到平衡。Stable Diffusion不僅使用戶僅在消費級顯卡上就能夠快速生成高分辨率、高清晰度圖像,而且建立開源生態(tài),大大降低用戶的使用門檻。 圖表8:Diffusion模型原理示意圖 資料來源:Stability.AI,中金公司研究部 圖表9:Stable Diffusion模型原理示意圖 資料來源:CVPR 2022《High-Resolution Image Synthesis with Latent Diffusion Models》,中金公司研究部 ChatGPT:基于GPT-3.5版本的InstructGPT,開放接口,風(fēng)靡全球 2022年11月30日,OpenAI發(fā)布了語言大模型ChatGPT,通過大規(guī)模預(yù)訓(xùn)練(GPT-3.5)和自然語言生成技術(shù)實現(xiàn)多輪對話問答。該模型以對話的形式與用戶進(jìn)行自然交互,核心方法是基于人類反饋的強化學(xué)習(xí)(RLHF),能夠?qū)崿F(xiàn)“回答后續(xù)問題、承認(rèn)錯誤、質(zhì)疑不正確的前提和拒絕不適當(dāng)?shù)恼埱蟆钡哪芰Α?/p> 圖表10:ChatGPT擁有智能問答、多輪對話的能力 資料來源:ChatGPT,中金公司研究部 圖表11:InstructGPT公開API后用戶的使用功能和頻率 資料來源:《Training language models to follow instructions with human feedback》(OpenAI,2022),中金公司研究部 ChatGPT基于IntructGPT模型思路,在GPT-3.5基礎(chǔ)上進(jìn)行微調(diào),在數(shù)據(jù)源選擇與數(shù)據(jù)標(biāo)注領(lǐng)域進(jìn)行優(yōu)化。ChatGPT僅僅在訓(xùn)練數(shù)據(jù)和微調(diào)模型(GPT-3.5)方面與InstructGPT不同,其余的訓(xùn)練流程和方法二者相同。相較于GPT-3的訓(xùn)練集只有文本,ChatGPT的訓(xùn)練集基于文本和代碼,新增代碼理解和生成的能力。目前,OpenAI仍未公布ChatGPT的論文,但根據(jù)其主頁可以得知它的方法與InstructGPT相同,本文從InstructGPT 展開技術(shù)路徑: 圖表12:InstructGPT主要訓(xùn)練流程分為三步,搭建有監(jiān)督SFT模型、強化學(xué)習(xí)模型 資料來源:《Training language models to follow instructions with human feedback》(OpenAI,2022),中金公司研究部 ? 第一步:OpenAI采集了基于prompt(即大量的提示文本)訓(xùn)練方式的數(shù)據(jù)集,提示訓(xùn)練模型“問題在此開始”,并詳細(xì)說明了下游任務(wù)。將此數(shù)據(jù)集交給約40人的專業(yè)團隊標(biāo)注人類希望得到的回答,并以該訓(xùn)練集進(jìn)行監(jiān)督學(xué)習(xí)微調(diào)GPT-3(參數(shù)數(shù)量為175B),得到微調(diào)后的模型SFT。(ChatGPT微調(diào)的模型是未公開的GPT-3.5,比GPT-3參數(shù)量級更大) ? 第二步:將第一步中的數(shù)據(jù)和GPT-3訓(xùn)練集的一部分?jǐn)?shù)據(jù)混合,使用微調(diào)模型SFT進(jìn)行預(yù)測,對每個輸入得到N個結(jié)果,此時專業(yè)人員會根據(jù)選項的好壞對其進(jìn)行排序,并把排序后的數(shù)據(jù)用來訓(xùn)練獎勵模型(RM)。 ? 第三步:使用PPO的強化學(xué)習(xí)方法更新參數(shù),使用SFT再預(yù)測一次數(shù)據(jù)集的結(jié)果通過第二步的獎勵模型進(jìn)行打分,計算獎勵(reward)。最后將獎勵分?jǐn)?shù)通過PPO返回SFT進(jìn)行訓(xùn)練。 大模型不僅對應(yīng)于ChatGPT,更是整個AIGC領(lǐng)域的技術(shù)基礎(chǔ) 圖表13:AIGC關(guān)鍵技術(shù)突破時間軸所示,GAN帶來生成模型雛形,GPT等NLP大模型是通用智能的技術(shù)基礎(chǔ) 資料來源:OpenAI官網(wǎng),《Denoising Diffusion Probabilistic Models》(Ho et al. 2020),中金公司研究部 生成對抗網(wǎng)絡(luò)GAN不斷演進(jìn),助力AI生成圖像逐步完善,為AIGC興起的原始思路。GAN (Generative Adversarial Networks,生成對抗網(wǎng)絡(luò)) 于2014年提出,主要原理為,將兩個神經(jīng)網(wǎng)絡(luò)(生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò))相互對立,以提高模型輸出結(jié)果的質(zhì)量。通過GAN,計算機可以根據(jù)輸入的文字描述、圖像分割、草圖、風(fēng)格等生成實際不存在的圖像,也可以將已有圖片根據(jù)輸入目標(biāo)轉(zhuǎn)化,肉眼幾乎無法分辨真假。AI能夠?qū)⑤斎氲暮喴字噶钷D(zhuǎn)化為圖像等復(fù)雜生成結(jié)果,具備支撐AIGC的技術(shù)條件。 GAN是AIGC發(fā)展的基礎(chǔ)框架,但技術(shù)方面仍有多處不足。在AIGC由學(xué)術(shù)界實驗室向應(yīng)用導(dǎo)向的過程中,生產(chǎn)者對于圖像生成的質(zhì)量、分辨率提出更高的要求,GAN的不足之處體現(xiàn)在:一方面容易生成隨機圖像,對結(jié)果的掌控力較差,另一方面是圖像分辨率較低,能夠支撐宏偉圖景、難以滿足細(xì)節(jié)要求,此外,生成過程中依賴對原有圖像數(shù)據(jù)的模仿,缺乏創(chuàng)新性?;谝陨喜蛔悖珹IGC發(fā)展在學(xué)術(shù)界、應(yīng)用界均遇發(fā)展瓶頸。 Transformer大模型的計算并行性奠定了網(wǎng)絡(luò)規(guī)模數(shù)據(jù)集訓(xùn)練的模型中的最高地位。2017年谷歌提出Transformer模型,其并行化的語言處理方式使得并行計算的效率得到大幅的提升?;赥ransformer模型,OpenAI于2018年首次提出了GPT模型,能夠在無監(jiān)督的情況下進(jìn)行訓(xùn)練,在大語料場景下能夠顯著的改善模型效果,正式將NLP(自然語言處理)帶入預(yù)訓(xùn)練時代。 CLIP模型(Contrastive Lauguage-image Pre-training)由OpenAI提出并在2021年開源,圖像-文本對應(yīng)能力為AIGC提供落地基礎(chǔ)。CLIP是以文本為監(jiān)督信號來訓(xùn)練可遷移的視覺模型,是多模態(tài)領(lǐng)域的重要推動力,主要價值在于具備強大的特征提取能力,基于互聯(lián)網(wǎng)搜集的數(shù)十億張圖片及文本信息進(jìn)行訓(xùn)練,能夠?qū)崿F(xiàn)將任意圖像和文本信息配對,為AIGC的主流應(yīng)用由文本生成圖片和視頻奠定多模態(tài)應(yīng)用基礎(chǔ)。 Diffusion擴散模型在2022年以多維度技術(shù)優(yōu)勢進(jìn)一步推動AIGC應(yīng)用。2015年,Diffusion模型最早在ICML的論文《Deep Unsupervised Learning using Nonequilibrium Thermodynamics》被提出,2020年由Jonathan Ho等人在《Denoising Diffusion Probabilistic Models》中提出的DDPM模型引起了學(xué)術(shù)界更多關(guān)注。模型本質(zhì)分為前向擴散、反向生成兩階段,分別完成對圖像逐步添加高斯噪聲-隨機噪聲、去噪聲的過程,相較GAN模型在數(shù)據(jù)量需求上更小,在生成任務(wù)效果上大幅超越GAN等傳統(tǒng)模型。 DALL·E及升級版DALL·E 2項目基于CLIP和Diffusion大模型開發(fā),AI具備依據(jù)文字進(jìn)行創(chuàng)作的能力,AIGC作畫領(lǐng)域落地進(jìn)入快車道。DALL·E系統(tǒng)由微軟注資的OpenAI于2021年1月推出,并于2022年4月更新至DALL·E 2,該系統(tǒng)基于CLIP和Diffusion關(guān)鍵模型建立,具備三種功能:1)根據(jù)文本提示生成圖像,2)以給定圖像生成新圖像,3)以文本編輯圖像元素。2022年7月,DALL·E 2開啟邀請制公測,生成圖像在關(guān)注宏偉場景的同時關(guān)注人物關(guān)系細(xì)節(jié),是AIGC早期落地的重要標(biāo)桿事件。 Stable Diffusion于2022年7月建立完全開源生態(tài),是2022年AIGC落地門檻降低、應(yīng)用熱度進(jìn)一步提升的又一重要驅(qū)動力。AIGC在2022年已經(jīng)具備了CLIP開源文本-圖片多模態(tài)模型基礎(chǔ)、LAION開源數(shù)據(jù)庫、Diffusion大模型算法框架創(chuàng)新,Stable Diffusion的重要貢獻(xiàn)在于使用空間降維解決內(nèi)存和模型推理時長痛點,以及2022年7月構(gòu)建的完全開源生態(tài)。部署在國內(nèi)的二次元創(chuàng)作Novel AI模型即是基于Stable Diffusion模型發(fā)展而來,作畫方式更為多元,包括文本生成圖像、原畫改寫、簡筆畫生成等模式,出圖質(zhì)量較高,深受二次元愛好者的認(rèn)可。至此,開源生態(tài)推動AIGC的數(shù)據(jù)、模型與算力問題初步解決,直接降低了使用者的門檻,滲透進(jìn)多個垂直領(lǐng)域。 展望未來,AI技術(shù)逐步進(jìn)入無監(jiān)督學(xué)習(xí)時代,支撐AIGC的產(chǎn)業(yè)化發(fā)展。2012年以前,AI模型大多為針對特定場景進(jìn)行訓(xùn)練的小模型,無法拓展至通用場景,且仍需要人工調(diào)參和大量數(shù)據(jù)來提升模型精度。隨著技術(shù)發(fā)展,AI可以在圖像、文本等多維度上實現(xiàn)融合互補,在無監(jiān)督情況下自動學(xué)習(xí)不同任務(wù)、并快速遷移到不同領(lǐng)域。例如,AI驅(qū)動虛擬人可以利用現(xiàn)實人臉及聲音等多維度數(shù)據(jù)生成形象,GAN、Diffusion模型可以通過文字、圖像等數(shù)據(jù)進(jìn)行多模態(tài)創(chuàng)作。我們認(rèn)為,AI技術(shù)已呈現(xiàn)出能穩(wěn)定支持內(nèi)容生產(chǎn)的發(fā)展趨勢,未來有望突破“小作坊”式生產(chǎn),助力AI內(nèi)容生產(chǎn)進(jìn)入工業(yè)化時代。 商業(yè)篇:以O(shè)penAI投資方向為風(fēng)向標(biāo),落地仍在探索期,跨模態(tài)打開場景空間 AIGC:跨模態(tài)應(yīng)用是未來發(fā)展趨勢,落地尚在早期 在深度學(xué)習(xí)模型支撐下,早期AIGC在文本生成領(lǐng)域開啟內(nèi)容創(chuàng)作落地,逐漸向音頻生成、圖像生成等領(lǐng)域推廣。深度學(xué)習(xí)帶來AI在學(xué)術(shù)和應(yīng)用落地領(lǐng)域的分水嶺,大模型進(jìn)一步將應(yīng)用接近認(rèn)知智能。2014年起,AIGC在文本理解、結(jié)構(gòu)化協(xié)作領(lǐng)域小范圍應(yīng)用,按照特定模式提取情感語義,或按照框定模板生成結(jié)構(gòu)化內(nèi)容。在2018年NLP領(lǐng)域BERT、GPT系列大模型出現(xiàn)后,非結(jié)構(gòu)化協(xié)作等高自由度創(chuàng)作具備落地空間。此外,AIGC在音頻-音頻生成、圖像-圖像生成和視頻-視頻生成創(chuàng)作等領(lǐng)域跨越落地門檻,在單模態(tài)發(fā)展中呈現(xiàn)多點開花局面。 圖表14:AIGC應(yīng)用全景圖一覽 資料來源:量子位智庫,中國信通院,Tom Mason,OpenAI官網(wǎng),中金公司研究部 DALL·E 2是一個由OpenAI開發(fā)的人工智能模型,它具備三種功能:1)以文本提示生成新圖像;2)以給定圖像生成新圖像;3)以文本編輯圖像元素。DALL·E 2的使用方法很簡單,用戶只需在軟件提示框中發(fā)送文字提示或圖像修改文字,或選擇給定墊圖,AI便會根據(jù)輸入生成結(jié)果。用戶可以隨意輸入想要表達(dá)的內(nèi)容和所希望的藝術(shù)風(fēng)格,DALL·E 2可以模仿許多知名藝術(shù)家的風(fēng)格,并準(zhǔn)確地描繪動物和人物,并表達(dá)他們之間的關(guān)系(例如打架或聊天)。 DALL·E 2目前采取付費購買次數(shù)的商業(yè)模式:加入Open Beta項目后,首月可以獲得50個免費點數(shù),每一個點數(shù)對應(yīng)一次繪圖,之后每個月可以免費補充15個,測試第一階段的價格是15美元115個點數(shù)?;ㄙM點數(shù)生成圖像后,用戶將獲得使用DALL·E創(chuàng)建的圖像商業(yè)化的完全使用權(quán),包括重印、銷售和商品化的權(quán)利。 圖表15:DALL·E 2 通過文字添加圖片元素 資料來源:DALL·E 2官網(wǎng),中金公司研究部 圖表16:DALL·E 2通過文字輸入生成圖片結(jié)果示例 資料來源:DALL·E 2官網(wǎng),中金公司研究部 全球范圍內(nèi)AIGC獨角獸已初步具備B C端的變現(xiàn)能力,但海外公司明顯領(lǐng)先于國內(nèi)。AIGC應(yīng)用層可分為圖像、文本、視頻、音頻,海外AIGC企業(yè)如Jasper、Grammarly等已經(jīng)積累大批用戶群體,年收入超千萬美元;大部分企業(yè)都至少啟動了A輪融資,融資金額相對較大。 圖表17:全球AIGC應(yīng)用層企業(yè)梳理 資料來源:鯨準(zhǔn),中金公司研究部 注:統(tǒng)計時間截至2023年1月29日 而國內(nèi)相關(guān)技術(shù)企業(yè)進(jìn)展較慢,參與方以應(yīng)用層為主。要提高國內(nèi)AIGC獨角獸發(fā)展速度,必須加快基礎(chǔ)層建設(shè),提高核心競爭力,同時找到更好的商業(yè)模式并具備變現(xiàn)能力。 圖表18:國內(nèi)AIGC應(yīng)用層企業(yè)梳理 資料來源:鯨準(zhǔn),中金公司研究部 注:統(tǒng)計時間截至2023年1月29日 ChatGPT應(yīng)用場景廣泛,海外已有龍頭落地成功案例 ChatGPT具備強大自然語言處理、多輪問答能力,可落地于廣泛的應(yīng)用場景。ChatGPT將在未來投入商業(yè)化領(lǐng)域,通過強化的上下文理解能力,優(yōu)化銀行、電商等客服機器人,生成商品描述和營銷文案,以及協(xié)助翻譯工作,大大提高服務(wù)質(zhì)量。目前,ChatGPT已經(jīng)成功在海外市場得到了應(yīng)用,為BuzzFeed提供了個性化測試,并幫助Amazon解決了客戶和工程師面臨的技術(shù)難題。 ? 個性化測試:2023年1月,美國新聞聚合網(wǎng)站BuzzFeed官宣將依托OpenAI為其用戶互動欄目Quizzes制作和個性化各種小測試。ChatGPT會生成一系列提問,再根據(jù)個人的回答產(chǎn)生用戶獨有的、可分享的文章。不久前,Meta向BuzzFeed支付了數(shù)百萬美元,以讓BuzzFeed為Meta的平臺生成內(nèi)容,并培訓(xùn)平臺上的創(chuàng)作者。 圖表19:BuzzFeed利用ChatGPT個性化Quizzes推送內(nèi)容 資料來源:BuzzFeed官網(wǎng),中金公司研究部 ? 嵌入微軟全系列產(chǎn)品:2023年世界經(jīng)濟論壇期間,微軟首席執(zhí)行官薩蒂亞·納德拉(Satya Nadella)在接受《華爾街日報》采訪上時表示:微軟將擴大對OpenAI技術(shù)的訪問并把ChatGPT嵌入到微軟各大系列產(chǎn)品,例如Bing、Office、Outlook等。屆時,ChatGPT將在搜索引擎、日常辦公、收發(fā)郵件中發(fā)揮其智能的語言理解和問題解答能力,使生產(chǎn)效率更上一層樓。 OpenAI通過戰(zhàn)略投資,產(chǎn)業(yè)賦能,加速ChatGPT在實際應(yīng)用中落地。作為AI行業(yè)龍頭OpenAI,公司不止自身持續(xù)開發(fā)出驚動業(yè)界的AI模型如GPT系列模型,而且創(chuàng)立基金投資于AI創(chuàng)業(yè)公司,不斷拓寬AI應(yīng)用邊界,重塑人類的創(chuàng)造力、法律、生產(chǎn)力、教育等方面能力,這四大領(lǐng)域也構(gòu)成了OpenAI在2022年的四大投資風(fēng)向標(biāo)。 Descript:AI驅(qū)動多媒體創(chuàng)新,重新定義音視頻剪輯軟件 音視頻轉(zhuǎn)文字,把繁瑣的剪輯工作變得像編輯文檔。Descript是一個像文檔一樣工作的編輯音視頻的軟件,包括轉(zhuǎn)錄文字、播客、屏幕錄制等功能。其最大的特色功能是可以將音視頻內(nèi)容轉(zhuǎn)錄成文本,將文本中的每個詞和媒體文件的時間戳對應(yīng),允許用戶通過編輯這個轉(zhuǎn)錄的文本信息來編輯原始音視頻。Descript主要功能如下: ? 轉(zhuǎn)錄:將音視頻中的內(nèi)容轉(zhuǎn)錄成文本,自動識別不同的講話。按照分鐘數(shù)計費,目前支持 22種語言;也可使用人工轉(zhuǎn)錄。 ? 屏幕錄制:支持快速錄制、編輯和分享屏幕錄制的視頻,遠(yuǎn)程錄制允許用戶在使用Zoom等會議軟件時調(diào)用Descript。 ? 音視頻編輯:1)刪除:當(dāng)用戶刪除詞句,音頻中對應(yīng)的詞也會被刪除;2)生成(收購加拿大初創(chuàng)Lyrebird后推出Overdub功能):當(dāng)用戶通過打字添加文本,AI可以生成該用戶的聲音;3)一鍵檢測和刪除語氣詞:例如“um”、“uh”等大量重復(fù)使用的單詞。 圖表20:Descript操作界面:使用腳本編輯錄音,添加場景來排列視覺效果 資料來源:Descript官網(wǎng),中金公司研究部 圖表21:Overdub:創(chuàng)建文本到語音的轉(zhuǎn)換模型,或選擇超逼真的庫存語音 資料來源:Descript官網(wǎng),中金公司研究部 Descript定位于協(xié)同編輯工具,根據(jù)團隊用戶數(shù)和每月轉(zhuǎn)錄時長進(jìn)行收費。免費版每月有1小時的轉(zhuǎn)錄時長;Creator 版本每月10小時轉(zhuǎn)錄時長,定價12美元;Pro版本每月30小時轉(zhuǎn)錄時長,定價24美元。Descript目前已完成4輪融資,總?cè)谫Y額達(dá)1億美元。2022年11月,OpenAI領(lǐng)投C輪5,000萬美元融資,估值達(dá)5.5億美元。 Harvey:AI協(xié)助律師撰寫文件,提升法律工作流程效率 Harvey有望作為法律的自然語言接口,大幅減少簡單重復(fù)的法律流程工作。Harvey是面向律師群體的AI助手工具,為法律工作者提供統(tǒng)一的、直觀的操作界面。同時借助強大的生成式語言模型(主要為GPT-3)的能力,可以在律師的工作流程中幫助處理一系列繁雜的工作,如研究、起草、分析法律相關(guān)條文,使律師能夠?qū)⒏鄷r間花在工作中高價值部分。 Harvey目前仍處于內(nèi)部測試階段,但已受到OpenAI的關(guān)注和青睞。2022年11月,Harvey AI獲得OpenAI的500萬美元投資,Google AI負(fù)責(zé)人Jeff Dean、Mixer Labs聯(lián)合創(chuàng)始人Elad Gil以及一批天使投資人跟投。本輪融資后,Harvey將正式向律師客戶群體推出服務(wù)。 Harvey背靠OpenAI和微軟,享受更多資源領(lǐng)先競爭對手。市場格局中,Casetext同樣利用人工智能技術(shù)進(jìn)行案例搜索,進(jìn)行法律研究、摘要起草等工作。據(jù)OpenAI表示,Harvey將受益于與OpenAI的關(guān)系,能夠提前訪問微軟的新OpenAI系統(tǒng)和Azure資源。 Mem:AI學(xué)習(xí)用戶工作、習(xí)慣,提供智能化筆記 Mem作為一款輕量筆記工具,致力于打造“世界上第一款自動組織的筆記產(chǎn)品”,提高用戶的工作效率與生產(chǎn)潛力。Mem主打快速記錄與內(nèi)容搜索,利用人工智能技術(shù)提供預(yù)測、自動整理筆記內(nèi)容,并且允許用戶添加話題標(biāo)簽、標(biāo)記其他用戶、添加定期提醒等。 目前,Mem為Twitter推出了Mem It應(yīng)用,允許用戶保存推文串,獲得AI生成的內(nèi)容摘要,并看到類似推文的建議。Mem的內(nèi)置工作助手Mem X也得到進(jìn)一步完善,增添了智能寫作和智能編輯等新功能,利用人工智能根據(jù)提示生成文本、總結(jié)文件、為文件生成標(biāo)題,并讓用戶使用自然語言命令來編輯或格式化文本。 Mem采用Freemium(免費增值)的定價模式,從個人用戶向團隊和企業(yè)版進(jìn)行拓展。付費版Mem X套餐價格是10美元/月,在免費版基礎(chǔ)上增加了AI的能力,能夠自動整理和歸類信息;付費團隊和企業(yè)版則增加更多存儲空間、團隊管理能力以及安全性等內(nèi)容,團隊版的定價是15美元/月,企業(yè)版需根據(jù)具體情況定價。在OpenAI的支持下,Mem計劃進(jìn)一步開發(fā)人工智能驅(qū)動的功能和體驗。2022年11月,OpenAI領(lǐng)投A輪2,350萬美元融資,本輪融資中估值1.1億美元,累計融資總額達(dá)2,900萬美元。 從AI個性化角度出發(fā),Mem與市場中常見的工作管理軟件形成差異化競爭格局。工作協(xié)助平臺Glean于2022年5月完成1億美元的C輪融資,為SaaS企業(yè)提供一致的搜索體驗,市值估值達(dá)10億美元;Atlassian類似維基的協(xié)作工作平臺Confluence適合于遠(yuǎn)程操作的團隊工作,能夠有效的融合知識與協(xié)作。Mem致力于生成式知識管理方法,其個性化機器學(xué)習(xí)模型超越簡單的搜索與記錄。 圖表22:Mem操作界面:利用人工智能技術(shù)實時整理筆記 資料來源:Mem官網(wǎng),中金公司研究部 圖表23:Mem主要功能:九大核心功能打造自動組織的筆記 資料來源:Mem官網(wǎng),中金公司研究部 Speak:AI驅(qū)動語言學(xué)習(xí),向?qū)W習(xí)者提供實時反饋 Speak是具有人工智能功能的英語學(xué)習(xí)平臺。Speak利用AI能力,開發(fā)了一系列對話內(nèi)容,模擬了日常的各種場景和互動,通過和AI導(dǎo)師的互動來提高用戶口語。其最大的特點是AI導(dǎo)師可以基于對話內(nèi)容,提供實時的反饋,包括發(fā)音、語法、詞匯等。 Speak主要通過提供自動續(xù)訂的月度和年度訂閱的模式盈利。Speak在韓國有近10萬付費用戶,2022年開設(shè)約1,500萬節(jié)課程,ARR超千萬美元。定價方面,Speak按年度訂閱約100美元/年,按月付22美元/月。 Speak將訓(xùn)練新的語種,進(jìn)一步拓展至韓國以外的市場。2022年11月,OpenAI領(lǐng)投B輪2,700萬美元融資。下一步,公司計劃拓展新的語種與市場(例如日本)并投資于利用文本生成模型的功能(例如GPT-3),加速開發(fā)新的對話語言體驗。 市場格局方面,Duolingo是成熟的語言學(xué)習(xí)軟件巨頭。作為全球用戶量最大的語言學(xué)習(xí)平臺,Duolingo提供超過40門語言課程,目前月度活躍用戶4,000萬,付費用戶190萬,ARR達(dá)3.6億美元。 圖表24:Speak:提供真正的交互式口語學(xué)習(xí)體驗產(chǎn)品 資料來源:Speak官網(wǎng),中金公司研究部 圖表25:最先進(jìn)的AI語音技術(shù):0.1s延遲,95%準(zhǔn)確率,100%實時 資料來源:Speak官網(wǎng),中金公司研究部 AI還將不斷增強人類,在更多低腦力領(lǐng)域?qū)崿F(xiàn)效率倍增 AI將人類從簡單重復(fù)的任務(wù)中解放出來,專注于高價值、創(chuàng)新型的工作。通過解決密集型勞動、重復(fù)性勞動的痛點,AI正在逐步取代部分人工工作,給社會帶來降本增效的價值。在未來,隨著AI技術(shù)的不斷提高,它將在更多的低腦力領(lǐng)域提供支持,從而幫助人們實現(xiàn)更高效的工作。 除了消除重復(fù)性任務(wù),AI同樣起到簡化決策與提供新洞察等作用,提升決策的速度和效率。據(jù)Gartner預(yù)測,截至2023年,超過1/3的大型企業(yè)將使用決策智能實現(xiàn)結(jié)構(gòu)化決策,隨著決策智能成為業(yè)務(wù)流程的核心部分,決策制定得比以前更快、更容易,而且成本更低。例如,在醫(yī)療領(lǐng)域,AI技術(shù)已經(jīng)成為支持臨床診斷、疾病預(yù)測、個體化治療等的重要工具;在金融領(lǐng)域,AI技術(shù)支持了金融機構(gòu)快速、高效的風(fēng)險評估、客戶服務(wù)等。 圖表26:AI在執(zhí)行環(huán)節(jié)、低級別決策環(huán)節(jié)具備替代人工的潛力 資料來源:ARK,中金公司研究部 圖表27:ARK測算:2030年,AI軟硬件公司年收入總和有望達(dá)15.7萬億美元 資料來源:ARK,中金公司研究部 格局和展望篇:行業(yè)格局有望走向底層集中、垂類多點開花,MaaS是商業(yè)模式演進(jìn)的潛在方向 算法邊際成本是AI競爭核心焦點,碎片化需求使得成本居高不下 低邊際成本是大模型的優(yōu)勢,碎片化的需求成為降低成本難的關(guān)鍵因素。目前國內(nèi)大部分AI工作是以項目制的形式進(jìn)行的,落地還停留在“手工作坊”階段,存在重復(fù)造輪子情況,邊際成本高。而且目前大部分場景數(shù)據(jù)規(guī)范性差、長尾,且采集方法落后,導(dǎo)致工作量較大,嚴(yán)重影響AI大模型進(jìn)展。 碎片化的本質(zhì)原因在于現(xiàn)階段AI模型的通用性低,單個模型只適用特定任務(wù)。例如,在工廠場景下檢測零部件、在醫(yī)療圖像中檢測病理特征,雖然本質(zhì)上都是檢測,項目過程中都需要重新收集、標(biāo)注數(shù)據(jù)、訓(xùn)練模型。由于客戶需求多樣,以至于幾乎每個項目都要重復(fù)進(jìn)行這一流程,研發(fā)流程難以復(fù)用,重度依賴人力,邊際成本很高。 ? 需求端:全社會的數(shù)字化是人工智能的重要目標(biāo),同時也意味著大量的建模需求。隨著數(shù)字信息世界、物理世界融合,產(chǎn)生的數(shù)據(jù)量是以前的成千上萬倍,監(jiān)控和管理這些信息牽制了大量人力,未來需要大量的AI模型來處理這些信息。而大量的模型需求需要較高的AI模型生產(chǎn)效率、較低的算法邊際成本。 ? 供給端:AI技術(shù)相對較新,引起業(yè)界關(guān)注僅10年,人才培養(yǎng)不足,導(dǎo)致人才稀缺。從事AI技術(shù)研究與開發(fā)的人員有限,難以滿足市場大量模型需求。此外,技術(shù)快速發(fā)展,技術(shù)人員和訓(xùn)練數(shù)據(jù)集也需要不斷學(xué)習(xí)更新。 圖表28:弱人工智能階段長尾場景種類繁多導(dǎo)致項目碎片化 資料來源:量子位,中金公司研究部 AI行業(yè)不會向碎片化的方向發(fā)展,而是強者愈強,用大模型結(jié)合底層全棧自研來解決邊際成本問題。在大模型路線下,AI模型的邊際成本還會受益于三個因素的影響大幅降低: ? 底層基礎(chǔ)設(shè)施可復(fù)用,降低邊際成本。以商湯科技的AI大裝置為例,公司多年累積的硬件、框架和AI算法和落地經(jīng)驗結(jié)合起來,一起融合到AI大裝置,能盡可能的減少重復(fù)研發(fā)。 ? 模型研發(fā)流程可復(fù)用,大模型提升AI通用性。在大模型壓縮制造小模型的工業(yè)化生產(chǎn)方式下,AI公司可以生產(chǎn)大量的、覆蓋不同場景的模型。這樣,在遇到新場景的情形下,可以通過將原有的模型模塊化組裝,快速制造新模型,無需針對新場景再次定制化生產(chǎn)。 ? 研發(fā)流程自動化(AutoML),開發(fā)門檻降低,人員成本降低。AutoML能自動執(zhí)行AI流程中的大部分工程性任務(wù),減少了AI模型生產(chǎn)過程中對人工的需求量,且由于機器學(xué)習(xí)門檻的降低,不再需要招聘深度理解AI工程的專家,使得開發(fā)人員的成本降低。 圖表29:AutoML在數(shù)據(jù)、模型和優(yōu)化三個環(huán)節(jié)減少對深度學(xué)習(xí)專家的依賴 資料來源:CSDN,中金公司研究部 復(fù)刻ChatGPT為代表的模式較難,多維度需求鑄就高門檻 ChatGPT基于GPT-3.5微調(diào)而來,該超大泛化模型對成本、組織力、工程壁壘、大算力和底層框架都提出極高要求。隨著模型的不斷擴大,模型訓(xùn)練和維護(hù)成本也在不斷增加;在技術(shù)層面上,需要先進(jìn)的底層技術(shù)和高效的框架來保證模型訓(xùn)練的穩(wěn)定性和效率,而且構(gòu)建的模型必須要有很高的泛化能力,這需要研發(fā)團隊有相當(dāng)高的技術(shù)水平和工程能力。 ? 訓(xùn)練成本:對于訓(xùn)練基礎(chǔ)模型GPT-3為例,訓(xùn)練一次所要消耗的成本高達(dá)近8400萬元人民幣。這不僅需要資本,也需要公司的組織力和戰(zhàn)略支持。依賴于小規(guī)模團隊的試驗探索來創(chuàng)新不再可能。 ? 標(biāo)注數(shù)據(jù):由于ChatGPT/InstructGPT模型訓(xùn)練使用的是prompt方法,在訓(xùn)練的第一步OpenAI雇傭標(biāo)注師對1.3萬條數(shù)據(jù)進(jìn)行人工回答,同時在第二部分需要對模型給出的3.3萬條答案進(jìn)行排序。在論文附錄中可以看到OpenAI對于人工標(biāo)注數(shù)據(jù)的生成有諸多細(xì)節(jié)和心得。 ? 強大算力:ChatGPT訓(xùn)練所耗費的算力大約為3640 PF-days,即假設(shè)每秒運算一千萬億次,需要連續(xù)運行3640天。訓(xùn)練大模型需要強大的算力,而優(yōu)化大規(guī)模算力背后的技術(shù)底層框架需要深度定制和自主研發(fā)能力,這些因素都構(gòu)成了諸多工程壁壘。 除了顯性的成本外,場景、流量、數(shù)據(jù)壁壘和社會包容度所形成的隱性成本同樣不可小覷。不同的場景需要專門的數(shù)據(jù)集,數(shù)據(jù)的獲取和標(biāo)記需要額外的成本;數(shù)據(jù)的質(zhì)量、隱私和安全構(gòu)建起數(shù)據(jù)壁壘;此外,公眾對不同規(guī)模公司發(fā)布的新模型的包容度是不同的。 ? 用戶真實體驗:除了標(biāo)注人員需要標(biāo)注,也需要用戶通過測試API提出實際使用中的問題獲取prompt,得到更多User-Based數(shù)據(jù),縮小和用戶需求的差距,不斷迭代優(yōu)化,該過程需要更高昂的數(shù)據(jù)清洗成本和時間成本。 ? 基于場景反饋:ChatGPT/InstructGPT的核心創(chuàng)新點在于RLHF,這不僅局限于標(biāo)注師的反饋,也需要實際用戶使用中的反饋。例如Midjourney在用戶使用中生成4張圖像,用戶的點選就會作為reward反饋傳回公司進(jìn)行迭代強化學(xué)習(xí)。找到場景、擁有流量,使得廣大愛好者能夠眾包式的迭代模型,也是商業(yè)模式上的挑戰(zhàn)。 ? 社會包容程度:對于初創(chuàng)公司,這種內(nèi)測模型更容易發(fā)布,用戶包容度更高,但隨著模型表現(xiàn)出色,用戶期待值更高,未來再通過免費內(nèi)測形式會遇到更多問題。例如谷歌、Meta都曾發(fā)布語言模型測試,但因數(shù)據(jù)質(zhì)量層次不齊,輸出結(jié)果有明顯偏誤,被迅速下架。 圖表30:Midjourney生成圖像用戶反饋界面 資料來源:Midjourney官網(wǎng),中金公司研究部 圖表31:Meta發(fā)布的語言模型GALACTICA上線僅兩天就因輸出結(jié)果有偏誤而光速下架 資料來源:GALACTICA官網(wǎng),中金公司研究部 產(chǎn)業(yè)鏈百花齊放,創(chuàng)業(yè)公司垂直領(lǐng)域也具備機遇 大模型路線下,行業(yè)格局必將走向集中。不同于深度學(xué)習(xí)的技術(shù)路線,大模型路線的高壁壘和“前期投入大,邊際成本低”的模式?jīng)Q定了行業(yè)必將走向集中格局,缺少資源的中小參與者難以跟隨技術(shù)發(fā)展的步伐。 在中長尾走向寡頭市場,在關(guān)鍵垂類仍有Know-How的魅力。盡管行業(yè)走向集中,我們卻并不認(rèn)為行業(yè)會走向影視作品中一個超級人工智能統(tǒng)領(lǐng)全球的景象。在市場空間足夠大的關(guān)鍵垂類中,Know-How和數(shù)據(jù)壁壘仍舊能夠顯著增加模型的表現(xiàn),同時獲得足夠的經(jīng)濟回報。而在更中長尾的場景中,有泛化多模能力的超大模型將呈現(xiàn)多強格局,滋養(yǎng)諸多的ISV在其基礎(chǔ)上搭建應(yīng)用,或者進(jìn)一步調(diào)優(yōu)。 圖表32:我們預(yù)測的未來格局 資料來源:中金公司研究部 圖表33:InstructGPT論文顯示:經(jīng)過知識調(diào)優(yōu)后的小參數(shù)模型效果遠(yuǎn)超未調(diào)優(yōu)的大模型 資料來源:《Training language models to follow instructions with human feedback》(OpenAI,2022),中金公司研究部 未來商業(yè)模式探討:Model-as-a-Service是潛在方向 目前ChatGPT還沒有明確的盈利商業(yè)模式,但我們認(rèn)為MaaS是一個潛在方向。未來的商業(yè)模式可以參照Hugging Face踐行的AI開源社區(qū)模式以及潛在方向:模型即服務(wù)Model-as-a-Service,即Hugging Face提供的AutoTrain和Inference API & Infinity解決方案。MaaS將模型訓(xùn)練、維護(hù)和部署的過程轉(zhuǎn)移到云服務(wù)上。這樣的方式不僅提高了效率,還降低了客戶對模型開發(fā)和維護(hù)的依賴,使其能夠更加專注于業(yè)務(wù)上的投入。 圖表34:Hugging Face商業(yè)模式 資料來源:元宇宙官網(wǎng),中金公司研究部 商湯科技是國內(nèi)領(lǐng)先的人工智能公司,其自主研發(fā)的AI基礎(chǔ)設(shè)施SenseCore,實現(xiàn)了通過AI平臺化賦能百業(yè),商業(yè)模式類似MaaS。與傳統(tǒng)的AI技術(shù)不同,商湯把人工智能的核心底層基礎(chǔ)設(shè)施、軟件平臺和應(yīng)用層打造成了一個通用的生態(tài)系統(tǒng),可以被各種應(yīng)用程序和服務(wù)輕松使用,而不需要對模型進(jìn)行專門的開發(fā)。這種模型即服務(wù)(Model-as-a-Service)的架構(gòu),可以幫助企業(yè)更快速地實現(xiàn)人工智能的價值。 圖表35:商湯建立了包括底層基礎(chǔ)設(shè)施、AI軟件平臺及應(yīng)用層平臺的AI生態(tài)系統(tǒng) 資料來源:弗若斯特沙利文,商湯科技,中金公司研究部 |
|