報告出品/作者:華西計算機團隊、劉澤晶 以下為報告原文節(jié)選 ------ 1.1 ChatGPT為API接口收費,我國需自主可控 ChatGPT,AI的曠世之作,持續(xù)引爆市場: 是OpenAI于 2022年11月推出的聊天機器人,由于其功能強大,例如實現(xiàn)文章創(chuàng)作、代碼創(chuàng)作、回答問題等功能,我們認為其具有跨時代的意義,例如實現(xiàn)勒“模糊搜索”到“精準推送”的跨越,因此持續(xù)引爆市場。
國產(chǎn)生態(tài)正在逐步繁榮,百度打響“ChatGPT”領域“第一槍”:百度是少有預訓練模型(大模型)語言訓練能力的公司,其在算法、算力、數(shù)據(jù)、生態(tài)、平臺五方面皆有儲備,根據(jù)百度官方公眾號,百度計劃于2023年3月16日在北京總部召開新聞發(fā)布會,圍繞國產(chǎn)版ChatGPT文心一言,我們認為此舉正式意味著我國自主可控的“ChatGPT”即將問世。 1.2 ChatGPT的競爭本質即大模型儲備競賽 大模型的是人工智能發(fā)展的必然趨勢: 大模型即“大算力+強算法”結合的產(chǎn)物。大模型通常是在大規(guī)模無標注數(shù)據(jù)上進行訓練,學習出一種特征和規(guī)則?;诖竽P瓦M行應用開發(fā)時,將大模型進行微調,如在下游特定任務上的小規(guī)模有標注數(shù)據(jù)進行二次訓練,或者不進行微調,就可以完成多個應用場景的任務。
1.3 大模型帶來的AI技術與應用變革潛能被廣泛驗證 大模型帶來的AI技術與應用變革潛能被廣泛驗證,可以分為四類,分別是NLP(自然語言處理)、CV(計算機視覺)、多模態(tài)和科學計算。
1.4 中美科技巨頭廠商開啟大模型儲備“軍備賽” 美國科技巨頭公司開啟AI大模型 “軍備賽” :u 谷歌: 谷歌推出聊天機器人Bard,底層代碼為LaMDA,我們認為LaMDA與ChatGPT算法具備一戰(zhàn)之力。此外,BERT算法具備庫時代的意義。
資料來源:公開資料整理,騰訊《AIGC發(fā)展趨勢報告2023》,華西證券研究所 2.1 百度文心一言開啟國產(chǎn)ChatGPT新征程 百度是少有大模型語言訓練能力的公司: 其文心大模型和Open AI的GPT模型類似,在2019年就已經(jīng)推出,并且已經(jīng)迭代了多代,從單一的自然語言理解延伸到多模態(tài),包括視覺、文檔、文圖、語音等多模態(tài)多功能,因此“文心一言”所基于的ERNIE系列模型也已經(jīng)具備較強泛化能力和性能。
2.2.1 百度文心一言大模型儲備齊全: NLP(自然語言處理) 百度文心一言NLP方向算法儲備齊全: 其中著名的 ERNIE系列,是基于知識增強的千億模型,用于智能創(chuàng)作、摘要生成、問答、語義檢索、情感分析、信息抽取、文本匹配、文本糾錯等各類自然語言理解和生成任務,并且模型已經(jīng)可應用于醫(yī)療、金融、圖語言、編程、跨模態(tài)、信息抽取等各個方面。此外,PLATO模型,是全球首個超百億參數(shù)規(guī)模的中英文對話訓練模型,可以讓機器人像人一樣具有邏輯且自由對話。 百度文心一言NLP功能強大: 例如ERNIE系列,ERNIE3.0基于知識增強的多范式統(tǒng)一預訓練框架,深入融合的千億級知識,具備強大的語言理解能力與小說、摘要、文案創(chuàng)意、歌詞、詩歌等文學創(chuàng)作能力。其中與鵬城實驗室合作發(fā)布了知識增強千億大模型 “鵬城-百度·文心“。目前文心ERNIE已經(jīng)刷新93個中文NLP任務基準,并多次登頂SuperGLUE全球榜,已在機器閱讀理解、文本分類、語義相似度計算等60多項任務中實際應用。 2.2.2 百度文心一言大模型儲備齊全: CV(計算機視覺) 百度文心一言CV具有顛覆性: VIMER-CAE: 為視覺自監(jiān)督預訓練大模型,創(chuàng)新性地提出 “在隱含的編碼表征空間完成掩碼預測任務”的預訓練框架,在圖像分類、目標檢測、語義分割等經(jīng)典下游任務上刷新SOTA結果。
2.2.3 百度文心一言大模型儲備齊全: 跨模態(tài)、生物計算 文心跨境大模型優(yōu)勢顯著: ERNIE-ViLG2.0是知識增強的 AI 作畫大模型,在公開權威評測集MS-COCO上取得了當前該領域的領先效果,在語義可控性、圖像清晰度、中國文化理解等方面均展現(xiàn)出了顯著優(yōu)勢;跨模態(tài)文檔智能大模型ERNIE-Layout,基于布局知識增強技術,融合文本、圖像、布局等信息進行聯(lián)合建模,在文檔抽取、布局理解等5類11項任務刷新業(yè)界SOTA;ERNIE-VIL是首個只是業(yè)界首個融合場景圖知識的多模態(tài)預訓練模型。在視覺常識推理、跨模態(tài)圖像檢索、跨模態(tài)文本檢索等 典型多模態(tài)任務中刷新了世界記錄。
2.3.1 百度底層算力技術實力強勁: 百度智算中心 百度智算中心是數(shù)字經(jīng)濟的重要底座: 百度自身具有建設智能算力中心的實力,百度智算中心面向人工智能應用場景,為政府和行業(yè)客戶提供普惠算力、算法模型和數(shù)據(jù)服務的人工智能基礎設施??擅鎸θ斯ぶ悄軕脠鼍?,支持大規(guī)模部署的同時,滿足高并發(fā)、高彈性、高精度等不同計算需求,可支撐城市大腦、產(chǎn)業(yè)金融、自動駕駛等各個垂直化行業(yè)。
資料來源:百度智能云官網(wǎng),華西證券研究所 2.3.2 百度底層算力技術實力強勁:百度百舸 · AI異構計算平臺 百度AI異構計算平臺技術積累濃厚:包含AI計算、AI存儲、AI加速、AI容器四大核心套件,具有高性能、高彈性、高速互聯(lián)、高性價比等特性,其中平臺已經(jīng)充分汲取了百度多年技術積累,具備深度融合推薦、無人駕駛、生命科學、NLP等場景的實踐經(jīng)驗,能為AI場景提供軟硬一體解決方案,加速AI工程化落地。
2.3.3 百度底層算力技術實力強勁: 昆侖芯云服務器 百度昆侖云服務器服務器專為AI算力而生:昆侖芯云服務器是一種彈性按需、提供高性能通用AI算力的云服務器,應用于AI推理和AI訓練加速。昆侖芯云服務器是搭載昆侖芯的云服務器,支持K100和R200型號。其中昆侖芯為自主研發(fā)的 AI 通用處理器芯片。其中R200AI芯片采用7nm制成,廣泛應用于計算機視覺、自然語言處理、大規(guī)模語音識別、大規(guī)模推薦等場景。
2.3.4 百度底層算力技術實力強勁: 昆侖芯AI芯片 百度自身AI芯片技術實力濃厚: 昆侖芯AI芯片是百度自主研發(fā)的芯片,昆侖芯科技前身是百度智能芯片及架構部昆侖芯科技深耕AI加速領域已十余年,是一家在體系結構、芯片實現(xiàn)、軟件系統(tǒng)和場景應用均有積累的AI芯片企業(yè)。昆侖芯1代是百度自妍的第一一代昆侖芯片,2020年底實現(xiàn)量產(chǎn);昆侖芯2代也已于2021年8月量產(chǎn);根據(jù)百度集團執(zhí)行副總裁沈抖透露,昆侖芯3代將于2024年初量產(chǎn)。
2.4 百度文心一言生態(tài)愈發(fā)繁榮 百度模型評估結果屬于第一梯隊,彰顯其強大技術實力: 根據(jù)IDC的數(shù)據(jù)評估先實,百度文心大模型在市場格局中處于第一梯隊,產(chǎn)品能力、生態(tài)能力達到L4水平,應用能力達到L3水平。產(chǎn)品能力呈現(xiàn)出較強技術實力和平臺積累, “文心大模型+深度學習平臺”創(chuàng)新了人工智能研發(fā)應用范式達到行業(yè)前端水平;應用能力方面,百度已在金融、能源、制造、城市、傳媒、互聯(lián)網(wǎng)等行業(yè)擁有實際落地的標桿案例,截止目前文心已累計發(fā)布11個行業(yè)大模型;在生態(tài)能力方面,百度文心大模型在社區(qū)用戶的基礎上,可以實現(xiàn)與開發(fā)者、行業(yè)用戶、上下游產(chǎn)業(yè)的正向互動,在評估廠商中處于行業(yè)領先位置。
2.4 百度文心一言生態(tài)愈發(fā)繁榮 百度文心一言場景愈發(fā)繁榮,目前已有諸多廠商開展合作,我們認為其商業(yè)模式同樣為API接口收費,屬于SAAS商業(yè)模式,合作廠商分別覆蓋科技、金融、航天、影視、汽車、電子制造等諸多產(chǎn)業(yè)。 2.5 百度文心一言五大要素齊全,開啟全新篇章 我們認為大模型成功必備的五要素,分別是數(shù)據(jù)、算力、平臺、模型和生態(tài),而百度作為國產(chǎn)ChatGPT的領頭羊,五大要素皆已配備。 海量數(shù)據(jù): 即訓練大參數(shù)模型的“燃料”,根據(jù)IDC數(shù)據(jù),其擁有5500億條知識,且已經(jīng)應用于百度搜索、信息流、智能駕駛、百度地圖、小度等產(chǎn)品。 模型儲備:百度實現(xiàn)了全生態(tài)的布局,其中包括NLP、CV、跨境大模型、生物計算等領域。 NLP領域: ERNIE系列,是基于知識增強的千億模型,用于智能創(chuàng)作、摘要生成、問答、語義檢索、情感分析、信息抽取等能力。PLATO模型,是全球首個超百億參數(shù)規(guī)模的中英文對話訓練模型,可以讓機器人像人一樣具有邏輯且自由對話的功能。 CV領域: VIMER-CAE,應用于圖像分類、目標檢測、語義分割等場景;VIMER-UFO,擁有170億參數(shù),覆蓋人臉、人體、車輛、商品、食物細粒度分類等 20+的視覺多任務模型;OCR -VIMER-StrucTexT廣泛應用于文檔、卡證、票據(jù)等圖像文字識別和結構化理解;VIMERUMS業(yè)內(nèi)首發(fā)多源圖文模態(tài)表征的商品多模態(tài)預訓練模型; 跨境大模型:可實現(xiàn)AI作畫、場景融合視覺常識推理、跨模態(tài)圖像檢索、跨模態(tài)文本檢索等多場景。 生物計算: 應用場景為蛋白結構預測和小分子藥物研發(fā)等領域。 平臺方面: 擁有自主生態(tài)的百度百舸 · AI異構計算平臺,具備高效率、多密度、高易用性、多場景部署、樂高式拼接等能力。 算力底座:百度自身具有建設智能算力中心的實力,技術領先且自主可控,已有典型落地案例;服務器方面擁有自妍的昆侖芯云服務器,具有AI計算能力領先、生態(tài)兼容、兼具硬件虛擬化、易開發(fā)等能力;芯片方面,昆侖芯AI芯片是百度自主研發(fā)的芯片,2代芯片已量產(chǎn),具備算力支撐強、高速互聯(lián)等多重優(yōu)勢。 生態(tài): 百度大模型賦能千行百業(yè),已有落地應用,合作廠商分別覆蓋科技、金融、航天、影視、汽車、電子制造等諸多產(chǎn)業(yè)。 -------------------------------------------------------------------------- |
|
來自: 龍騰236 > 《CHATGPT人工智能機器》