小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

AIGC行業(yè)報告:ChatGPT-百度文心一言暢想

 龍騰236 2023-03-12 發(fā)布于福建

報告出品/作者:華西計算機團隊、劉澤晶

以下為報告原文節(jié)選

------

1.1 ChatGPT為API接口收費,我國需自主可控

ChatGPT,AI的曠世之作,持續(xù)引爆市場: 是OpenAI于 2022年11月推出的聊天機器人,由于其功能強大,例如實現(xiàn)文章創(chuàng)作、代碼創(chuàng)作、回答問題等功能,我們認為其具有跨時代的意義,例如實現(xiàn)勒“模糊搜索”到“精準推送”的跨越,因此持續(xù)引爆市場。


ChatGPT為AI接口收費,我國需自主可控: OpenAI(ChatGPT母公司)的商業(yè)模式為API接口收費,客戶可以通過接入OpenAI的API接口獲取獲取相關圖像、語言、代碼調整服務,我們認為此種商業(yè)模式具有“卡脖子”的風險,一旦海外禁止API接口權限,會對我國AIGC生態(tài)造成嚴重影響,因此我國需要發(fā)展自主可控的“ChatGPT”。

國產(chǎn)生態(tài)正在逐步繁榮,百度打響“ChatGPT”領域“第一槍”:百度是少有預訓練模型(大模型)語言訓練能力的公司,其在算法、算力、數(shù)據(jù)、生態(tài)、平臺五方面皆有儲備,根據(jù)百度官方公眾號,百度計劃于2023年3月16日在北京總部召開新聞發(fā)布會,圍繞國產(chǎn)版ChatGPT文心一言,我們認為此舉正式意味著我國自主可控的“ChatGPT”即將問世。

文章圖片1

1.2 ChatGPT的競爭本質即大模型儲備競賽

大模型的是人工智能發(fā)展的必然趨勢: 大模型即“大算力+強算法”結合的產(chǎn)物。大模型通常是在大規(guī)模無標注數(shù)據(jù)上進行訓練,學習出一種特征和規(guī)則?;诖竽P瓦M行應用開發(fā)時,將大模型進行微調,如在下游特定任務上的小規(guī)模有標注數(shù)據(jù)進行二次訓練,或者不進行微調,就可以完成多個應用場景的任務。


大模型是輔助式人工智能向通用性人工智能轉變的堅實底座: 大模型增強了人工智能的泛化性、通用性,生產(chǎn)水平得到質的飛躍,過去分散化模型研發(fā)下,單一AI應用場景需要多個模型支撐,每個模型需要算法開發(fā)、數(shù)據(jù)處理、模型訓練、參數(shù)調優(yōu)等過程。大模型實現(xiàn)了標準化AI研發(fā)范式,即簡單方式規(guī)模化生產(chǎn),具有“預訓練+精調”等功能,顯著降低AI開發(fā)門檻,即“低成本”和“高效率”。


數(shù)據(jù)、平臺、算力是打造大模型生態(tài)的必備基礎: 數(shù)據(jù)是訓練大模型參數(shù)的必備,我們認為可以理解成“燃料”;算力是訓練大模型的底層動力源泉,一個優(yōu)秀的算力底座在大模型(AI算法)的訓練和推理具備效率優(yōu)勢;平臺是大模型和算力之間的“橋梁”,可針對不同的模型和硬件,實現(xiàn)資源的合理分配,達到軟硬件的最優(yōu)組合,從而大幅提升訓練模型的效率。

文章圖片2

1.3 大模型帶來的AI技術與應用變革潛能被廣泛驗證

大模型帶來的AI技術與應用變革潛能被廣泛驗證,可以分為四類,分別是NLP(自然語言處理)、CV(計算機視覺)、多模態(tài)和科學計算。


NLP: 近年來,隨著預訓練技術(大模型)、算力提升以及NLP海量數(shù)據(jù)和任務特性,大模型預訓練在該領域取得顯著突破,2018年,隨著BERT(谷歌)的誕生,是利用海量無標注文本的監(jiān)督學習,已經(jīng)刷新多個AI權威技術榜單,3億參數(shù)的BERT模型在權威GLUE的11任務刷新紀錄,基準值推至80.4%,絕對值提升7.6個點。


CV: 目前,主要以卷積神經(jīng)網(wǎng)絡(CNN)和Transformer為支撐的計算機大模型快速發(fā)展,比如,2021年的150億參數(shù)的V-MoE推出,在ImageNET準率高達90.35%,此外,國內(nèi)廠商也逐漸發(fā)力,盤古CV大模型可提供OCR文字識別,并在多個場景落地。


多模態(tài): 大模型技術推動多模態(tài)模型不斷迭代升級,比如阿里大模型M6,模型參數(shù)10萬億級別,持續(xù)拓寬大模型應用廣度,覆蓋電商、智能交互等場景,此外,OpenAI的CLIP(文本圖像匹配)以及DALL·E2(文生圖)持續(xù)落地。


科學計算: AI+科學計算持續(xù)引發(fā)大變革,比如生物制藥、氣象預報、地震探查、材料等領域,例如Deep-Mind推出的AlphaFold2能夠覆蓋98.5%的人類蛋白質組,并對20種其他生物蛋白結構進行預測。

文章圖片3

1.4 中美科技巨頭廠商開啟大模型儲備“軍備賽”

美國科技巨頭公司開啟AI大模型 “軍備賽” :u 谷歌: 谷歌推出聊天機器人Bard,底層代碼為LaMDA,我們認為LaMDA與ChatGPT算法具備一戰(zhàn)之力。此外,BERT算法具備庫時代的意義。


微軟:目前,根據(jù)智東西報道,微軟推移動版Bing,語音接入、AI群聊等功能。此外,微軟本身也有在NLP、CV相關大模型的技術儲備。


其他: 例如FaceBook、亞馬遜、DeepMind、英偉達等廠商已經(jīng)加入大模型的“軍備賽”,并分別在NLP、CV或多模態(tài)方面已有相應的技術儲備,應用在語言生成、推理、代碼生成、跨模態(tài)搜索等領域中。


我國需有自主可控AI大模型,生態(tài)正逐漸繁榮:ü 百度: 是少有預訓練模型(大模型)語言訓練能力的公司,已經(jīng)經(jīng)歷多次迭代,目前已覆蓋眾多方向,目前已有近百萬開發(fā)者使用文心大模型,生態(tài)正在逐步繁榮,合作廠商覆蓋科技、教育、工業(yè)、媒體、金融等諸多產(chǎn)業(yè)。


阿里: 根據(jù)鈦媒體數(shù)據(jù),M6模型是中文多模態(tài)模型,參數(shù)規(guī)模高達萬億,已在超40個場景中應用,可以實現(xiàn)劇本創(chuàng)作等功能。


其他: 例如騰訊、京東、科大訊飛、字節(jié)跳動、網(wǎng)易等紛紛加入“軍備賽”,分別擁有獨特技術架構,應用在智慧音效、AI視頻創(chuàng)作、AI語音、AI作文、AI搜索等應用場景中。

文章圖片4

資料來源:公開資料整理,騰訊《AIGC發(fā)展趨勢報告2023》,華西證券研究所

2.1 百度文心一言開啟國產(chǎn)ChatGPT新征程

百度是少有大模型語言訓練能力的公司: 其文心大模型和Open AI的GPT模型類似,在2019年就已經(jīng)推出,并且已經(jīng)迭代了多代,從單一的自然語言理解延伸到多模態(tài),包括視覺、文檔、文圖、語音等多模態(tài)多功能,因此“文心一言”所基于的ERNIE系列模型也已經(jīng)具備較強泛化能力和性能。


我們認為百度作為國產(chǎn)ChatGPT“領軍企業(yè)”,符合數(shù)據(jù)、平臺、算力、大模型、生態(tài)多重要素需求: 算力方面,百度擁有自主生態(tài)的算力底座,比如百度智算中心;AI芯片方面,坐擁昆侖芯加速器,實現(xiàn)了核心自主可控,且性能優(yōu)異;平臺方面,百度具備百度百舸 · AI異構計算平臺,具有高性能、高彈性等優(yōu)勢;大模型儲備方面,百度實現(xiàn)了全生態(tài)的布局,其中包括NLP、CV、大模型、生物計算等領域,且在不同場景中已有較多應用。數(shù)據(jù)方面,根據(jù)IDC數(shù)據(jù),其擁有5500億條知識,且已經(jīng)應用于百度搜索、信息流、智能駕駛、百度地圖、小度等產(chǎn)品。

文章圖片5

2.2.1 百度文心一言大模型儲備齊全: NLP(自然語言處理)

百度文心一言NLP方向算法儲備齊全: 其中著名的 ERNIE系列,是基于知識增強的千億模型,用于智能創(chuàng)作、摘要生成、問答、語義檢索、情感分析、信息抽取、文本匹配、文本糾錯等各類自然語言理解和生成任務,并且模型已經(jīng)可應用于醫(yī)療、金融、圖語言、編程、跨模態(tài)、信息抽取等各個方面。此外,PLATO模型,是全球首個超百億參數(shù)規(guī)模的中英文對話訓練模型,可以讓機器人像人一樣具有邏輯且自由對話。

百度文心一言NLP功能強大: 例如ERNIE系列,ERNIE3.0基于知識增強的多范式統(tǒng)一預訓練框架,深入融合的千億級知識,具備強大的語言理解能力與小說、摘要、文案創(chuàng)意、歌詞、詩歌等文學創(chuàng)作能力。其中與鵬城實驗室合作發(fā)布了知識增強千億大模型 “鵬城-百度·文心“。目前文心ERNIE已經(jīng)刷新93個中文NLP任務基準,并多次登頂SuperGLUE全球榜,已在機器閱讀理解、文本分類、語義相似度計算等60多項任務中實際應用。

文章圖片6

2.2.2 百度文心一言大模型儲備齊全: CV(計算機視覺)

百度文心一言CV具有顛覆性: VIMER-CAE: 為視覺自監(jiān)督預訓練大模型,創(chuàng)新性地提出 “在隱含的編碼表征空間完成掩碼預測任務”的預訓練框架,在圖像分類、目標檢測、語義分割等經(jīng)典下游任務上刷新SOTA結果。


VIMER-UFO 2.0: 多任務學習模型,行業(yè)最大170億參數(shù)視覺多任務模型,覆蓋人臉、人體、車輛、商品、食物細粒度分類等 20+ CV 基礎任,具備支持各類任務、各類硬件的靈活部署等優(yōu)勢,可以有效解決大模型參數(shù)量大,推理性能差等問題。


OCR -VIMER-StrucTexT 2.0: 為表征學習預訓練模型解決了訓練數(shù)據(jù)匱乏和傳統(tǒng) OCR + NLP 鏈路過長導致的模型表達能力不足、優(yōu)化效率偏低等問題,能夠廣泛應用于文檔、卡證、票據(jù)等圖像文字識別和結構化理解,例如泛卡證票據(jù)信息抽取應用、政務辦公文檔還原應用等場景。


VIMER-UMS: 是行業(yè)首個統(tǒng)一視覺單模態(tài)與多源圖文模態(tài)表征的商品多模態(tài)預訓練模型,可實現(xiàn)統(tǒng)一圖文表征預訓練同時覆蓋商品視覺單模態(tài)、多模態(tài)識別與檢索任務,可以顯著改善商品視覺檢索和商品多模態(tài)檢索體驗。

文章圖片7

2.2.3 百度文心一言大模型儲備齊全: 跨模態(tài)、生物計算

文心跨境大模型優(yōu)勢顯著: ERNIE-ViLG2.0是知識增強的 AI 作畫大模型,在公開權威評測集MS-COCO上取得了當前該領域的領先效果,在語義可控性、圖像清晰度、中國文化理解等方面均展現(xiàn)出了顯著優(yōu)勢;跨模態(tài)文檔智能大模型ERNIE-Layout,基于布局知識增強技術,融合文本、圖像、布局等信息進行聯(lián)合建模,在文檔抽取、布局理解等5類11項任務刷新業(yè)界SOTA;ERNIE-VIL是首個只是業(yè)界首個融合場景圖知識的多模態(tài)預訓練模型。在視覺常識推理、跨模態(tài)圖像檢索、跨模態(tài)文本檢索等 典型多模態(tài)任務中刷新了世界記錄。


文心生物計算大模型在全球具有領先優(yōu)勢: HelixFold-Single是秒級別的蛋白結構預測大模型,從近3億的無標注蛋白質數(shù)據(jù)中隱式的學習MSA信息,在90% 的單體蛋白場景上預測效果持平AF2,在抗體結構預測場景下,比AlphaFold2預測結果更優(yōu);HelixGEM-2為小分子藥物研發(fā)模型,在量子化學屬性預測和虛擬篩選雙場景上達到領先效果,其上個版本是業(yè)界首個基于幾何構象增強的化合物表征模型,引入化合物的三維空間信息,在14個藥物屬性預測相關的benchmarks上效果達到業(yè)界最優(yōu);HelixFold模型可以端到端地學習蛋白質結構,在國產(chǎn)DCU環(huán)境下訓練千萬級別蛋白僅需到2.6天,在 GPU 上相同硬件環(huán)境配置下,訓練性能和部分場景效果顯著優(yōu) AlphaFold2。

文章圖片8

2.3.1 百度底層算力技術實力強勁: 百度智算中心

百度智算中心是數(shù)字經(jīng)濟的重要底座: 百度自身具有建設智能算力中心的實力,百度智算中心面向人工智能應用場景,為政府和行業(yè)客戶提供普惠算力、算法模型和數(shù)據(jù)服務的人工智能基礎設施??擅鎸θ斯ぶ悄軕脠鼍?,支持大規(guī)模部署的同時,滿足高并發(fā)、高彈性、高精度等不同計算需求,可支撐城市大腦、產(chǎn)業(yè)金融、自動駕駛等各個垂直化行業(yè)。


方案優(yōu)勢強大,具備多重領先優(yōu)勢: 1、技術領先,現(xiàn)有千卡并行環(huán)境下實現(xiàn)加速比90%,可支持大規(guī)模模型訓練場景;2、綠色低碳,數(shù)據(jù)中PUE可以低至1.08,左到低能耗、高性能運行;3、自主可控,AI芯片、AI框架、開發(fā)平臺、大模型層面、可以做到全棧自研自主可控;4、開放生態(tài),飛槳已累計凝聚477萬開發(fā)者等。


目前已在江蘇鹽城、湖北宜昌等地落地,建設內(nèi)容包括智算中心、城市級視頻中臺、數(shù)據(jù)中臺系統(tǒng)、核心物聯(lián)網(wǎng)通信系統(tǒng)、大規(guī)模圖譜分析體系,以及超過270類不同人工智能算法模型。

文章圖片9

資料來源:百度智能云官網(wǎng),華西證券研究所

2.3.2 百度底層算力技術實力強勁:百度百舸 · AI異構計算平臺

百度AI異構計算平臺技術積累濃厚:包含AI計算、AI存儲、AI加速、AI容器四大核心套件,具有高性能、高彈性、高速互聯(lián)、高性價比等特性,其中平臺已經(jīng)充分汲取了百度多年技術積累,具備深度融合推薦、無人駕駛、生命科學、NLP等場景的實踐經(jīng)驗,能為AI場景提供軟硬一體解決方案,加速AI工程化落地。


百度智能計算平臺具備多重優(yōu)勢: 1、高效率,提供AI超級服務器、RDMA網(wǎng)絡、大吞吐低延時的并行文件系統(tǒng),可大幅提升訓練速度和推理效率;2、高密度,支持GPU資源共享與隔離、架構感知調度,提升異構資源的容器化部署密度,提升資源利用率;3、良好易用性,支持PaddlePaddle、TensorFlow、Pytorch等多種主流深度學習框架;4、多場景部署,可根據(jù)業(yè)務需求在不同場景部署落地,公有云、IDC等場景;5、樂高式拼接,AI計算、AI存儲、AI容器三大核心產(chǎn)品均可各自獨立提供服務。


應用場景廣泛: 可用于營銷廣告、無人駕駛、生物科技、語音語義、計算機視覺等場景中的訓練及推理。

文章圖片10

2.3.3 百度底層算力技術實力強勁: 昆侖芯云服務器

百度昆侖云服務器服務器專為AI算力而生:昆侖芯云服務器是一種彈性按需、提供高性能通用AI算力的云服務器,應用于AI推理和AI訓練加速。昆侖芯云服務器是搭載昆侖芯的云服務器,支持K100和R200型號。其中昆侖芯為自主研發(fā)的 AI 通用處理器芯片。其中R200AI芯片采用7nm制成,廣泛應用于計算機視覺、自然語言處理、大規(guī)模語音識別、大規(guī)模推薦等場景。


昆侖芯云服務器技術壁壘濃厚: 1、領先的AI計算能力,基于7nm制程,單卡算力達到128TFLOPS,支持推理和訓練;2、生態(tài)兼容,支持主流深度學習開發(fā)框架,例如Tensorflow、Pytorch、PaddlePaddle等;3、具備硬件虛擬化能力,優(yōu)化了加速芯片的利用率,在保證延時和吞吐量的情況下支持推理和訓練等混合工作負載;4、易開發(fā),支持多種開發(fā)組件工具,編譯引擎支持C和C++編程。


典型案例: 1、互聯(lián)網(wǎng)搜索,可支持搜索系統(tǒng)對高并發(fā)要求,提高NLP推理的效率;2、超算中心,實現(xiàn)人工智能算力大規(guī)模、高密度部署;3、工業(yè)質檢,利用深度學習技術替代人工質檢,大大節(jié)省了人力成本,提高整廠的智能化水平,幫助企業(yè)降低損耗,提升約10%的良品率;4、智慧城市,全方位支撐智慧政務、綜合治理等智慧城市核心板塊。

文章圖片11

2.3.4 百度底層算力技術實力強勁: 昆侖芯AI芯片

百度自身AI芯片技術實力濃厚: 昆侖芯AI芯片是百度自主研發(fā)的芯片,昆侖芯科技前身是百度智能芯片及架構部昆侖芯科技深耕AI加速領域已十余年,是一家在體系結構、芯片實現(xiàn)、軟件系統(tǒng)和場景應用均有積累的AI芯片企業(yè)。昆侖芯1代是百度自妍的第一一代昆侖芯片,2020年底實現(xiàn)量產(chǎn);昆侖芯2代也已于2021年8月量產(chǎn);根據(jù)百度集團執(zhí)行副總裁沈抖透露,昆侖芯3代將于2024年初量產(chǎn)。


昆侖芯2代AI芯片可提供龐大算力支撐,具有性能優(yōu)勢: 采用7nm架構,對比上一代,R200全面提升AI負載的運行效率,巔峰算力可達256 TOPS@INT8,昆侖芯2代具備多重優(yōu)勢,1、創(chuàng)新架構,通用和專用指令集融合,支持訓練、推理、虛擬化;2、算力支撐強大,通用計算能力明顯增強,可靈活支持AI算法的演進,3、高速互聯(lián),高性能分布式AI系統(tǒng),加速AI數(shù)據(jù)和模型并行中的數(shù)據(jù)交換。此外,昆侖芯在著名算法的功耗比已有顯著優(yōu)勢。

文章圖片12

2.4 百度文心一言生態(tài)愈發(fā)繁榮

百度模型評估結果屬于第一梯隊,彰顯其強大技術實力: 根據(jù)IDC的數(shù)據(jù)評估先實,百度文心大模型在市場格局中處于第一梯隊,產(chǎn)品能力、生態(tài)能力達到L4水平,應用能力達到L3水平。產(chǎn)品能力呈現(xiàn)出較強技術實力和平臺積累, “文心大模型+深度學習平臺”創(chuàng)新了人工智能研發(fā)應用范式達到行業(yè)前端水平;應用能力方面,百度已在金融、能源、制造、城市、傳媒、互聯(lián)網(wǎng)等行業(yè)擁有實際落地的標桿案例,截止目前文心已累計發(fā)布11個行業(yè)大模型;在生態(tài)能力方面,百度文心大模型在社區(qū)用戶的基礎上,可以實現(xiàn)與開發(fā)者、行業(yè)用戶、上下游產(chǎn)業(yè)的正向互動,在評估廠商中處于行業(yè)領先位置。


百度大模型賦能千行百業(yè),已有落地應用:目前百度文心在能源、金融、航天、制造、傳媒、城市、社科以及影視等領域與國網(wǎng)、浦發(fā)、吉利、TCL、人民網(wǎng)、哈爾濱、上海辭書出版社等均有案例應用的行業(yè)大模型。這些行業(yè)大模型作為重要AI底座,在各行業(yè)的技術效果突破、產(chǎn)品創(chuàng)新、生產(chǎn)流程變革、降本增效等維度產(chǎn)生價值。

文章圖片13

2.4 百度文心一言生態(tài)愈發(fā)繁榮

百度文心一言場景愈發(fā)繁榮,目前已有諸多廠商開展合作,我們認為其商業(yè)模式同樣為API接口收費,屬于SAAS商業(yè)模式,合作廠商分別覆蓋科技、金融、航天、影視、汽車、電子制造等諸多產(chǎn)業(yè)。

文章圖片14

2.5 百度文心一言五大要素齊全,開啟全新篇章

我們認為大模型成功必備的五要素,分別是數(shù)據(jù)、算力、平臺、模型和生態(tài),而百度作為國產(chǎn)ChatGPT的領頭羊,五大要素皆已配備。

海量數(shù)據(jù): 即訓練大參數(shù)模型的“燃料”,根據(jù)IDC數(shù)據(jù),其擁有5500億條知識,且已經(jīng)應用于百度搜索、信息流、智能駕駛、百度地圖、小度等產(chǎn)品。

模型儲備:百度實現(xiàn)了全生態(tài)的布局,其中包括NLP、CV、跨境大模型、生物計算等領域。

NLP領域: ERNIE系列,是基于知識增強的千億模型,用于智能創(chuàng)作、摘要生成、問答、語義檢索、情感分析、信息抽取等能力。PLATO模型,是全球首個超百億參數(shù)規(guī)模的中英文對話訓練模型,可以讓機器人像人一樣具有邏輯且自由對話的功能。

CV領域: VIMER-CAE,應用于圖像分類、目標檢測、語義分割等場景;VIMER-UFO,擁有170億參數(shù),覆蓋人臉、人體、車輛、商品、食物細粒度分類等 20+的視覺多任務模型;OCR -VIMER-StrucTexT廣泛應用于文檔、卡證、票據(jù)等圖像文字識別和結構化理解;VIMERUMS業(yè)內(nèi)首發(fā)多源圖文模態(tài)表征的商品多模態(tài)預訓練模型;

跨境大模型:可實現(xiàn)AI作畫、場景融合視覺常識推理、跨模態(tài)圖像檢索、跨模態(tài)文本檢索等多場景。

生物計算: 應用場景為蛋白結構預測和小分子藥物研發(fā)等領域。

平臺方面: 擁有自主生態(tài)的百度百舸 · AI異構計算平臺,具備高效率、多密度、高易用性、多場景部署、樂高式拼接等能力。

算力底座:百度自身具有建設智能算力中心的實力,技術領先且自主可控,已有典型落地案例;服務器方面擁有自妍的昆侖芯云服務器,具有AI計算能力領先、生態(tài)兼容、兼具硬件虛擬化、易開發(fā)等能力;芯片方面,昆侖芯AI芯片是百度自主研發(fā)的芯片,2代芯片已量產(chǎn),具備算力支撐強、高速互聯(lián)等多重優(yōu)勢。

生態(tài): 百度大模型賦能千行百業(yè),已有落地應用,合作廠商分別覆蓋科技、金融、航天、影視、汽車、電子制造等諸多產(chǎn)業(yè)。

--------------------------------------------------------------------------

    本站是提供個人知識管理的網(wǎng)絡存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權內(nèi)容,請點擊一鍵舉報。
    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多