導(dǎo)語· 蘋果開源了!小參數(shù)大模型OpenELM和訓(xùn)練庫CoreNet! · 模型做小做精的趨勢,預(yù)示著具身智能市場正在被重視,即將起飛 · 數(shù)智化升級 = 大模型 + 設(shè)備 = 具身智能 · 大模型市場的三個(gè)核心問題以及解法 一、行業(yè)大事件!蘋果大模型開源近日,蘋果在HuggingFace發(fā)布了 OpenELM,包括四種變體,參數(shù)量分別為 270M、450M、1.1B 和 3B,這是一系列基于公開數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練和微調(diào)的模型,并提供模型權(quán)重、推理代碼、訓(xùn)練日志、保存點(diǎn)、預(yù)訓(xùn)練設(shè)置等完整文檔庫。同期蘋果在GitHub發(fā)布了一個(gè)深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練庫CoreNet(前身為CVNets),允許開發(fā)者訓(xùn)練各種可用于蘋果設(shè)備的模型,包括目標(biāo)分類、目標(biāo)檢測、語義分割等視覺模型,以及LLM、CLIP等基礎(chǔ)大模型。目前版本的OpenELM就是通過CoreNet訓(xùn)練迭代了35萬次完成的,在128個(gè)A100/H100 GPU上,最大的模型訓(xùn)練時(shí)長為13天。 值得注意的是,OpenELM的四款模型體量極小,最小2.7億的參數(shù)絕對算是大模型里的“小模型”了(即SLM)。可以看出,蘋果該系列的模型,只針對端側(cè)和桌面級的本地部署設(shè)計(jì),測試平臺(tái)也都是家用級的設(shè)備,且在常見測試集的跑分并不高,例如在MMLU跑分都低于30分,而微軟同級別的的Phi-3-mini 3.8B可達(dá)70分左右水平。 二、為什么蘋果要開源?這就引發(fā)了值得思考的問題,為什么一直堅(jiān)持閉源生態(tài)的蘋果在這個(gè)時(shí)候選擇加入開源社區(qū)了呢? 首先,肯定有開源社區(qū)先天優(yōu)勢的原因: 1 可以大幅降低成本。開源社區(qū)中開發(fā)者們貢獻(xiàn)的軟件代碼分支和測試反饋,可以降低蘋果在軟件開發(fā)、試錯(cuò)和維護(hù)方面的成本。 2 可以提高可定制性。在開源社區(qū)中與開發(fā)者們互動(dòng)的過程中,蘋果可以根據(jù)自己的需求規(guī)劃調(diào)整技術(shù)棧和軟件升級迭代方向,挑選重點(diǎn)發(fā)展的功能模塊,避免不必要的功能浪費(fèi),便于拓展軟件項(xiàng)目的生態(tài)成長。 3 可以提高代碼質(zhì)量。開源了的代碼經(jīng)過眾多開發(fā)者的審查和測試,往往比閉源軟件更加安全和穩(wěn)定。由于所有源代碼、測試反饋記錄都是公開的,蘋果可以更加方便地查找和修復(fù)安全漏洞,提高軟件的安全性和穩(wěn)定性。 4 可以提高創(chuàng)新性。開源環(huán)境是鼓勵(lì)競爭和合作的,任何人都可以參與項(xiàng)目開發(fā),這大大拓寬了創(chuàng)新的來源,可以充分利用全球的智慧和創(chuàng)造力,集思廣益,不斷推動(dòng)技術(shù)的進(jìn)步和創(chuàng)新。 其次,以主流手機(jī)廠商為例,無論是鴻蒙系還是安卓系,都已經(jīng)開始全面擁抱AI。 vivo X100系列手機(jī)采用聯(lián)發(fā)科天璣9300芯片,已在端側(cè)落地70億和130億參數(shù)大語言模型,全面開放生成式AI功能,提供包括語義搜索、問答、寫作、創(chuàng)圖、智慧交互等應(yīng)用。vivo和聯(lián)發(fā)科之所以能那么快地部署起端側(cè)AI,通義千問等開源大模型功不可沒,主導(dǎo)企業(yè)采用開放式的軟件架構(gòu),開源社區(qū)在整個(gè)研發(fā)過程中充分貢獻(xiàn),在新技術(shù)新產(chǎn)品的導(dǎo)入過程中,既能增加速度又能提高質(zhì)量。 最后,也是最重要的一點(diǎn),就是在AI技術(shù)的發(fā)展前沿,開源社區(qū)的戰(zhàn)斗力是蘋果追趕AI步伐最快的路徑。 回顧過去的2023年里,發(fā)布的基礎(chǔ)模型里開源模型的占比高達(dá)65.7%,我們知道上周Meta剛發(fā)布了目前開源模型里最強(qiáng)的Llama3,發(fā)布后一周內(nèi)就出現(xiàn)了多個(gè)開源增強(qiáng)的版本,比如LLaVA++就是集成了Phi-3和Llama3,在多模態(tài)尤其是視覺語言任務(wù)中表現(xiàn)非常出色。 我們已經(jīng)看到過非常多開源顛覆閉源的例子,例如大神Georgi Gerganov在開源社區(qū)發(fā)布的llama.cpp和wisper.cpp,就是用純C的極簡代碼,打破了英偉達(dá)CUDA對AI硬件的壟斷,幫助蘋果打開了面向AI開發(fā)者的大門。我們有理由相信,下一個(gè)android依然會(huì)是來自開源社區(qū),聰明如蘋果一定能明白,如果自己再不放開身段加入開源社區(qū),下一個(gè)被顛覆的可能就是自己,強(qiáng)大如蘋果也存在分分鐘變成諾基亞的可能。 三、大模型開源是一個(gè)趨勢!現(xiàn)如今每周都有新的基礎(chǔ)模型發(fā)布,一方面,如Llama3尚未發(fā)布的400B,或阿里已發(fā)布的千問110B,是把模型做大做強(qiáng)的方向,另一方面,如微軟發(fā)布的Phi-3,以及蘋果發(fā)布的OpenELM,是把模型做小做精的方向。前者,將對OpenAI這樣閉源主導(dǎo)的AI頭部企業(yè)形成擠壓,避免過早出現(xiàn)一家獨(dú)大的技術(shù)供應(yīng)單一、市場壟斷局面,也幫助促成更健康有生機(jī)的AI行業(yè)全面發(fā)展。后者,則進(jìn)一步驗(yàn)證了頭部企業(yè)正在向著一個(gè)統(tǒng)一的方向移動(dòng),那就是具身智能時(shí)代,這背后的主要原因是具身智能市場實(shí)在太大了。 以國內(nèi)的大模型市場為例,2023年市場規(guī)模僅50億元,甚至比2023年中國AI領(lǐng)域的投融資金額20億美元低很多。但當(dāng)大模型與設(shè)備相結(jié)合,市場容量規(guī)模將在數(shù)年內(nèi)輕松沖上萬億級規(guī)模。以AI-PC電腦為例,市場分析機(jī)構(gòu)Canalys最新預(yù)測數(shù)據(jù),2024年AI-PC的全球滲透率就將達(dá)到18%,出貨量超過4800萬臺(tái),2025年滲透率將達(dá)到40%,出貨量超過1億臺(tái),并且相對傳統(tǒng)PC增加10-15%的溢價(jià)。僅AI-PC一項(xiàng),五年內(nèi)市場規(guī)模就將達(dá)到2000億美元以上。又比如AI手機(jī)市場,每年十幾億臺(tái)出貨量,大模型滲透率將比AI-PC更高。 四、模型開源加速具身智能設(shè)備時(shí)代具身智能市場除了傳統(tǒng)硬件品類,也將激活很多新興市場。比如Living AI公司出品的AIBI和EMO桌面寵物機(jī)器人,就整合了OpenAI等多個(gè)AI公司的大模型方案,支持人臉識(shí)別和視覺分析,支持ChatGPT語音聊天。 又比如已開售的WEHEAD,是一款桌面陪伴型的互動(dòng)機(jī)器人產(chǎn)品,雖然初代產(chǎn)品有些無法形容,但已經(jīng)讓我們看到一些具身智能產(chǎn)品的探索方向。 可以預(yù)見,“大模型+設(shè)備”的具身智能市場,將是兵家必爭之地,機(jī)遇與挑戰(zhàn)并存,尤其是機(jī)遇這一點(diǎn),在經(jīng)濟(jì)下行的低谷期,顯得更加難能可貴。信息化浪潮已經(jīng)到了數(shù)智化升級為主要?jiǎng)恿Φ碾A段,而數(shù)智化升級最廣闊前景的就是“大模型+設(shè)備”的具身智能市場。 五、具身智能時(shí)代第二大難點(diǎn)!模型成本下降的仍不足以推動(dòng)具身智能設(shè)備時(shí)代的正在落地,普及到千家萬戶。 在近日2024中關(guān)村論壇年會(huì)未來人工智能先鋒論壇上,螞蟻集團(tuán)首席技術(shù)官何征宇表示,AI正在推動(dòng)產(chǎn)業(yè)革命,但這一技術(shù)發(fā)展到“人人可得”、徹底改變?nèi)祟惿钸€有一定距離。從產(chǎn)業(yè)角度看,需要解決三個(gè)最核心的問題:一是可靠性,當(dāng)今以大模型為主的人工智能系統(tǒng)還沒有實(shí)現(xiàn)百分百的可靠,還未獲得公眾百分百的信任。二是經(jīng)濟(jì)性,人工智能作為創(chuàng)新技術(shù)要想可持續(xù)發(fā)展必須是普惠的。三是易用性,像照相技術(shù)一樣,只有當(dāng)傻瓜相機(jī)發(fā)明之后,拍照才普及到千家萬戶。 為保證大模型能以最低成本部署到設(shè)備,還需要在計(jì)算框架上做到降成! 上海云錦微科技有限公司首席科學(xué)家周昌博士早在2022年剛開始啟動(dòng)vt-transformer計(jì)算框架時(shí),就曾預(yù)判“現(xiàn)如今市場上所有的軟硬一體化產(chǎn)品,都將因?yàn)锳I大模型技術(shù),升級進(jìn)化為具身智能產(chǎn)品”,如今看來,一語中的,我們將不斷看到各種“大模型+設(shè)備”的具身智能產(chǎn)品被發(fā)布。無論是工業(yè)硬件、家用硬件、企業(yè)硬件,都將因?yàn)榇竽P图夹g(shù),產(chǎn)生無數(shù)全新的可能性。vt-transformer的設(shè)計(jì)初衷,也和Georgi Gerganov一樣,是通過純C的極簡架構(gòu)和代碼,實(shí)現(xiàn)AI基礎(chǔ)設(shè)施的技術(shù)破壁,幫助激活市場。 這一計(jì)算框架旨在解決提及的三大核心問題: 1 可靠性,通過開源社區(qū)來解。和當(dāng)年的Linux、Android一樣,也和蘋果選擇開源一樣,靠開發(fā)者們的集體監(jiān)督測試反饋,來提高技術(shù)可靠性。 2 經(jīng)濟(jì)性,通過小型化計(jì)算框架來解。AI普惠勢必會(huì)與我國制造業(yè)根基,以及國產(chǎn)芯片逆襲捆綁在一起。而具身智能市場發(fā)力的核心課題,就是把多種多樣的大模型壓縮到多種多樣的設(shè)備里。云錦OS可以很好的連接起模型和芯片,幫助大幅壓縮大模型進(jìn)入設(shè)備的成本。 3 易用性,通過智能體應(yīng)用來解。云錦微已經(jīng)在多個(gè)領(lǐng)域發(fā)布了適應(yīng)場景的智能體應(yīng)用,比如安防智能體配備了算法訓(xùn)練平臺(tái)VT-Station和設(shè)備管理軟件VT-ClipView,工業(yè)智能體配備了質(zhì)檢平臺(tái)VT-Vision,企業(yè)智能體配備了大語言模型應(yīng)用ChatwithVTX。這些開箱即用的應(yīng)用將有效幫助大模型技術(shù)在各行業(yè)場景的設(shè)備側(cè)落地,激活市場。 |
|