蘋果開源說明了什么？具身智能設(shè)備時代要到來了嗎？

netouch 2024-12-29 發(fā)布于北京

展開全文

導語

· 蘋果開源了！小參數(shù)大模型OpenELM和訓練庫CoreNet！

· 模型做小做精的趨勢，預(yù)示著具身智能市場正在被重視，即將起飛

· 數(shù)智化升級 = 大模型 + 設(shè)備 = 具身智能

· 大模型市場的三個核心問題以及解法

一、行業(yè)大事件！蘋果大模型開源

近日，蘋果在HuggingFace發(fā)布了 OpenELM，包括四種變體，參數(shù)量分別為 270M、450M、1.1B 和 3B，這是一系列基于公開數(shù)據(jù)集進行預(yù)訓練和微調(diào)的模型，并提供模型權(quán)重、推理代碼、訓練日志、保存點、預(yù)訓練設(shè)置等完整文檔庫。同期蘋果在GitHub發(fā)布了一個深度神經(jīng)網(wǎng)絡(luò)訓練庫CoreNet（前身為CVNets），允許開發(fā)者訓練各種可用于蘋果設(shè)備的模型，包括目標分類、目標檢測、語義分割等視覺模型，以及LLM、CLIP等基礎(chǔ)大模型。目前版本的OpenELM就是通過CoreNet訓練迭代了35萬次完成的，在128個A100/H100 GPU上，最大的模型訓練時長為13天。

值得注意的是，OpenELM的四款模型體量極小，最小2.7億的參數(shù)絕對算是大模型里的“小模型”了（即SLM）?？梢钥闯?，蘋果該系列的模型，只針對端側(cè)和桌面級的本地部署設(shè)計，測試平臺也都是家用級的設(shè)備，且在常見測試集的跑分并不高，例如在MMLU跑分都低于30分，而微軟同級別的的Phi-3-mini 3.8B可達70分左右水平。

二、為什么蘋果要開源？

這就引發(fā)了值得思考的問題，為什么一直堅持閉源生態(tài)的蘋果在這個時候選擇加入開源社區(qū)了呢？

首先，肯定有開源社區(qū)先天優(yōu)勢的原因：

1 可以大幅降低成本。開源社區(qū)中開發(fā)者們貢獻的軟件代碼分支和測試反饋，可以降低蘋果在軟件開發(fā)、試錯和維護方面的成本。

2 可以提高可定制性。在開源社區(qū)中與開發(fā)者們互動的過程中，蘋果可以根據(jù)自己的需求規(guī)劃調(diào)整技術(shù)棧和軟件升級迭代方向，挑選重點發(fā)展的功能模塊，避免不必要的功能浪費，便于拓展軟件項目的生態(tài)成長。

3 可以提高代碼質(zhì)量。開源了的代碼經(jīng)過眾多開發(fā)者的審查和測試，往往比閉源軟件更加安全和穩(wěn)定。由于所有源代碼、測試反饋記錄都是公開的，蘋果可以更加方便地查找和修復(fù)安全漏洞，提高軟件的安全性和穩(wěn)定性。

4 可以提高創(chuàng)新性。開源環(huán)境是鼓勵競爭和合作的，任何人都可以參與項目開發(fā)，這大大拓寬了創(chuàng)新的來源，可以充分利用全球的智慧和創(chuàng)造力，集思廣益，不斷推動技術(shù)的進步和創(chuàng)新。

其次，以主流手機廠商為例，無論是鴻蒙系還是安卓系，都已經(jīng)開始全面擁抱AI。

vivo X100系列手機采用聯(lián)發(fā)科天璣9300芯片，已在端側(cè)落地70億和130億參數(shù)大語言模型，全面開放生成式AI功能，提供包括語義搜索、問答、寫作、創(chuàng)圖、智慧交互等應(yīng)用。vivo和聯(lián)發(fā)科之所以能那么快地部署起端側(cè)AI，通義千問等開源大模型功不可沒，主導企業(yè)采用開放式的軟件架構(gòu)，開源社區(qū)在整個研發(fā)過程中充分貢獻，在新技術(shù)新產(chǎn)品的導入過程中，既能增加速度又能提高質(zhì)量。

最后，也是最重要的一點，就是在AI技術(shù)的發(fā)展前沿，開源社區(qū)的戰(zhàn)斗力是蘋果追趕AI步伐最快的路徑。

回顧過去的2023年里，發(fā)布的基礎(chǔ)模型里開源模型的占比高達65.7%，我們知道上周Meta剛發(fā)布了目前開源模型里最強的Llama3，發(fā)布后一周內(nèi)就出現(xiàn)了多個開源增強的版本，比如LLaVA++就是集成了Phi-3和Llama3，在多模態(tài)尤其是視覺語言任務(wù)中表現(xiàn)非常出色。

我們已經(jīng)看到過非常多開源顛覆閉源的例子，例如大神Georgi Gerganov在開源社區(qū)發(fā)布的llama.cpp和wisper.cpp，就是用純C的極簡代碼，打破了英偉達CUDA對AI硬件的壟斷，幫助蘋果打開了面向AI開發(fā)者的大門。我們有理由相信，下一個android依然會是來自開源社區(qū)，聰明如蘋果一定能明白，如果自己再不放開身段加入開源社區(qū)，下一個被顛覆的可能就是自己，強大如蘋果也存在分分鐘變成諾基亞的可能。

三、大模型開源是一個趨勢！

現(xiàn)如今每周都有新的基礎(chǔ)模型發(fā)布，一方面，如Llama3尚未發(fā)布的400B，或阿里已發(fā)布的千問110B，是把模型做大做強的方向，另一方面，如微軟發(fā)布的Phi-3，以及蘋果發(fā)布的OpenELM，是把模型做小做精的方向。前者，將對OpenAI這樣閉源主導的AI頭部企業(yè)形成擠壓，避免過早出現(xiàn)一家獨大的技術(shù)供應(yīng)單一、市場壟斷局面，也幫助促成更健康有生機的AI行業(yè)全面發(fā)展。后者，則進一步驗證了頭部企業(yè)正在向著一個統(tǒng)一的方向移動，那就是具身智能時代，這背后的主要原因是具身智能市場實在太大了。

以國內(nèi)的大模型市場為例，2023年市場規(guī)模僅50億元，甚至比2023年中國AI領(lǐng)域的投融資金額20億美元低很多。但當大模型與設(shè)備相結(jié)合，市場容量規(guī)模將在數(shù)年內(nèi)輕松沖上萬億級規(guī)模。以AI-PC電腦為例，市場分析機構(gòu)Canalys最新預(yù)測數(shù)據(jù)，2024年AI-PC的全球滲透率就將達到18%，出貨量超過4800萬臺，2025年滲透率將達到40%，出貨量超過1億臺，并且相對傳統(tǒng)PC增加10-15%的溢價。僅AI-PC一項，五年內(nèi)市場規(guī)模就將達到2000億美元以上。又比如AI手機市場，每年十幾億臺出貨量，大模型滲透率將比AI-PC更高。

四、模型開源加速具身智能設(shè)備時代

具身智能市場除了傳統(tǒng)硬件品類，也將激活很多新興市場。比如Living AI公司出品的AIBI和EMO桌面寵物機器人，就整合了OpenAI等多個AI公司的大模型方案，支持人臉識別和視覺分析，支持ChatGPT語音聊天。

又比如已開售的WEHEAD，是一款桌面陪伴型的互動機器人產(chǎn)品，雖然初代產(chǎn)品有些無法形容，但已經(jīng)讓我們看到一些具身智能產(chǎn)品的探索方向。

可以預(yù)見，“大模型+設(shè)備”的具身智能市場，將是兵家必爭之地，機遇與挑戰(zhàn)并存，尤其是機遇這一點，在經(jīng)濟下行的低谷期，顯得更加難能可貴。信息化浪潮已經(jīng)到了數(shù)智化升級為主要動力的階段，而數(shù)智化升級最廣闊前景的就是“大模型+設(shè)備”的具身智能市場。

五、具身智能時代第二大難點！

模型成本下降的仍不足以推動具身智能設(shè)備時代的正在落地，普及到千家萬戶。

在近日2024中關(guān)村論壇年會未來人工智能先鋒論壇上，螞蟻集團首席技術(shù)官何征宇表示，AI正在推動產(chǎn)業(yè)革命，但這一技術(shù)發(fā)展到“人人可得”、徹底改變?nèi)祟惿钸€有一定距離。從產(chǎn)業(yè)角度看，需要解決三個最核心的問題：一是可靠性，當今以大模型為主的人工智能系統(tǒng)還沒有實現(xiàn)百分百的可靠，還未獲得公眾百分百的信任。二是經(jīng)濟性，人工智能作為創(chuàng)新技術(shù)要想可持續(xù)發(fā)展必須是普惠的。三是易用性，像照相技術(shù)一樣，只有當傻瓜相機發(fā)明之后，拍照才普及到千家萬戶。

為保證大模型能以最低成本部署到設(shè)備，還需要在計算框架上做到降成！

上海云錦微科技有限公司首席科學家周昌博士早在2022年剛開始啟動vt-transformer計算框架時，就曾預(yù)判“現(xiàn)如今市場上所有的軟硬一體化產(chǎn)品，都將因為AI大模型技術(shù)，升級進化為具身智能產(chǎn)品”，如今看來，一語中的，我們將不斷看到各種“大模型+設(shè)備”的具身智能產(chǎn)品被發(fā)布。無論是工業(yè)硬件、家用硬件、企業(yè)硬件，都將因為大模型技術(shù)，產(chǎn)生無數(shù)全新的可能性。vt-transformer的設(shè)計初衷，也和Georgi Gerganov一樣，是通過純C的極簡架構(gòu)和代碼，實現(xiàn)AI基礎(chǔ)設(shè)施的技術(shù)破壁，幫助激活市場。

這一計算框架旨在解決提及的三大核心問題：

1 可靠性，通過開源社區(qū)來解。和當年的Linux、Android一樣，也和蘋果選擇開源一樣，靠開發(fā)者們的集體監(jiān)督測試反饋，來提高技術(shù)可靠性。

2 經(jīng)濟性，通過小型化計算框架來解。AI普惠勢必會與我國制造業(yè)根基，以及國產(chǎn)芯片逆襲捆綁在一起。而具身智能市場發(fā)力的核心課題，就是把多種多樣的大模型壓縮到多種多樣的設(shè)備里。云錦OS可以很好的連接起模型和芯片，幫助大幅壓縮大模型進入設(shè)備的成本。

3 易用性，通過智能體應(yīng)用來解。云錦微已經(jīng)在多個領(lǐng)域發(fā)布了適應(yīng)場景的智能體應(yīng)用，比如安防智能體配備了算法訓練平臺VT-Station和設(shè)備管理軟件VT-ClipView，工業(yè)智能體配備了質(zhì)檢平臺VT-Vision，企業(yè)智能體配備了大語言模型應(yīng)用ChatwithVTX。這些開箱即用的應(yīng)用將有效幫助大模型技術(shù)在各行業(yè)場景的設(shè)備側(cè)落地，激活市場。