AI發(fā)展的下一站在哪里?“算力霸主”英偉達(dá)創(chuàng)始人兼首席執(zhí)行官黃仁勛給出了答案:具身智能/具身人工智能。 01 特斯拉與英偉達(dá)站臺(tái),“具身智能”爆火 兩大科技巨頭齊齊站臺(tái),“具身智能”成為繼ChatGPT后最火爆的存在。日前,Optimus和NVIDIAVIMA在海外科技巨頭布局人形機(jī)器人賽道掀起 “人形機(jī)器人”浪潮。 5月16日,特斯拉2023股東大會(huì)展示了Optimus人形機(jī)器人最新進(jìn)展,包括撿起物品、環(huán)境發(fā)現(xiàn)和記憶,基于AI模仿人類(lèi)動(dòng)作,能完成分類(lèi)物品的復(fù)雜任務(wù)。從視頻中能夠看到,特斯拉機(jī)器人取得全方位進(jìn)展,運(yùn)動(dòng)控制能力持續(xù)進(jìn)化,AI能力大幅提升。 5月17日,NVIDIA創(chuàng)始人黃仁勛在ITF2023年半導(dǎo)體大會(huì)上向觀眾介紹了多模態(tài)人工智能技術(shù)NVIDIAVIMA,VIMA能根據(jù)視覺(jué)、文本提示執(zhí)行任務(wù)。除此之外,其他海外科技巨頭也加快布局人形機(jī)器人,谷歌PaLM-E作為多模態(tài)具身視覺(jué)語(yǔ)言模型,不僅能夠理解圖像,還能理解、生成語(yǔ)言,執(zhí)行各種機(jī)器人指令而無(wú)需重新訓(xùn)練;微軟持續(xù)探索將ChatGPT擴(kuò)展到機(jī)器人領(lǐng)域,從而運(yùn)用語(yǔ)言直觀控制機(jī)械臂、無(wú)人機(jī)等,而早在3月28日,Ope-nAI領(lǐng)投挪威機(jī)器人制造商1XTechnolo-giesA2輪投資,以創(chuàng)造具有實(shí)際應(yīng)用價(jià)值的機(jī)器人。 NVIDIA創(chuàng)始人黃仁勛 NVIDIA創(chuàng)始人黃仁勛認(rèn)為,下一波人工智能浪潮是“具身人工智能”,即能夠理解、推理并與物理世界互動(dòng)的智能系統(tǒng);不同于傳統(tǒng)機(jī)器人僅具有“物理”執(zhí)行力,大模型可通過(guò)將圖像、文字、具身數(shù)據(jù)聯(lián)合訓(xùn)練,引入多模態(tài)輸入,進(jìn)而提升大模型和環(huán)境的交互能力和學(xué)習(xí)能力,為機(jī)器人注入了“靈魂”。 02 何為“具身智能”,賦予機(jī)器人靈魂 具身智能指的是智能體通過(guò)與環(huán)境產(chǎn)生交互后,通過(guò)自身的學(xué)習(xí),產(chǎn)生對(duì)于客觀世界的理解和改造能力。換言之,一個(gè)具身智能機(jī)器人需要:首先聽(tīng)懂人類(lèi)語(yǔ)言,之后分解任務(wù)、規(guī)劃子任務(wù),移動(dòng)中識(shí)別物體,與環(huán)境交互,最終完成相應(yīng)任務(wù)。正如斯坦福大學(xué)計(jì)算機(jī)科學(xué)教授李飛飛所說(shuō),“具身的含義不是身體本身,而是與環(huán)境交互以及在環(huán)境中做事的整體需求和功能?!?/div> “具身智能”最初可追溯到1950年,當(dāng)時(shí)圖靈在論文《Computing Machinery and Intelligence》中首次提出了這一概念。但在之后的幾十年中,具身智能都沒(méi)有取得特別顯著的進(jìn)展,大多數(shù)機(jī)器人的行動(dòng)依舊仰賴(lài)人類(lèi)的手寫(xiě)指令與代碼。 這也是為何上文那個(gè)谷歌“史上最大'通才’AI模型”能引起業(yè)內(nèi)轟動(dòng)——它無(wú)需預(yù)先處理的場(chǎng)景,因此也不用人類(lèi)對(duì)相關(guān)數(shù)據(jù)進(jìn)行預(yù)處理或注釋。只需要一句簡(jiǎn)單的指令,便可實(shí)現(xiàn)更為自主的機(jī)器人控制。更重要的是,PaLM-E生成的行動(dòng)計(jì)劃還具有“彈性”,即可對(duì)周?chē)h(huán)境變化做出相應(yīng)反應(yīng)。 谷歌PaLM-E以多模態(tài)為主要特征,切實(shí)地與物理世界產(chǎn)生交互 從這點(diǎn)來(lái)看,“具身”所指代的,便是客觀物理存在的“身體”,對(duì)于身體所承載的“認(rèn)知” 帶來(lái)的各種影響。認(rèn)知不能脫離身體單獨(dú)存在。與"具身 相對(duì)的概念是“離身”(Disembodiment),指的是認(rèn)知與身體解耦。 “智能”粗略定義為智能體(生物或機(jī)械)與環(huán)境交互后,通過(guò)自身的學(xué)習(xí),產(chǎn)生對(duì)于客觀世界的理解和改造能力。具身智能機(jī)器人,可以簡(jiǎn)單理解為各種不同形態(tài)的機(jī)器人,讓它們?cè)谡鎸?shí)的物理環(huán)境下執(zhí)行各種各樣的任務(wù),來(lái)完成人工智能的進(jìn)化過(guò)程。這種“具身智能”的進(jìn)化,是純軟件系統(tǒng)當(dāng)中的進(jìn)化替代不了的。 最新的人工智能研究發(fā)現(xiàn),智能生物的智能化程度,和它的身體結(jié)構(gòu)之間,存在很強(qiáng)的正相關(guān)性。也就是說(shuō),對(duì)于智能生物來(lái)說(shuō),身體不是一部等待加載“智能算法”的機(jī)器,而是身體本身就參與了算法的進(jìn)化。今天地球上所有的智力活動(dòng),都是生物通過(guò)自己的身體,直直切切地與環(huán)境產(chǎn)生交與之后,同時(shí)自身的學(xué)習(xí)和進(jìn)化所遺留下來(lái)的“智力遺產(chǎn)”。這個(gè)過(guò)程,已經(jīng)被大型的計(jì)算機(jī)模擬實(shí)驗(yàn)所證實(shí)。 而在具體應(yīng)用中以掃地機(jī)器人為例,有了具身智能的掃地機(jī)器人,能夠自我學(xué)習(xí)之后,把以前它掃不到掃不干凈的地方,慢慢找到好的方法掃得更有效率和成果,因?yàn)槟愕膾咴跈C(jī)在更熟悉自己身體的情況下,慢慢變聰明了。還有你如果用路徑規(guī)劃,其被你點(diǎn)播得多了自己也更熟悉這個(gè)環(huán)境,下次自己可能就能找到一條更有效率的行動(dòng)軌跡了,并且真正做到無(wú)死角,只要它能進(jìn)去就能掃好。整個(gè)過(guò)程如同一個(gè)老家政,來(lái)你家十幾次后干得那樣,明顯讓用戶(hù)感到有進(jìn)步。 如果將AI其具象化,給這個(gè)大腦賦予“身體”,那么就會(huì)是另一種形態(tài),比如AI+汽車(chē)=智能汽車(chē),AI+機(jī)器人=具身智能機(jī)器人,再或者,在未來(lái)某個(gè)時(shí)點(diǎn)AI+汽車(chē)+機(jī)器人=變形金剛也是有可能的。隨著技術(shù)更迭,具身智能的出現(xiàn)會(huì)持續(xù)引領(lǐng)“大模型+機(jī)器人”潮流,而馬斯克推出的人形機(jī)器人Optimus無(wú)疑是其中極具代表性的作品。 現(xiàn)有機(jī)器人的學(xué)習(xí)模式為“旁觀型學(xué)習(xí)”,訓(xùn)練數(shù)據(jù)來(lái)自互聯(lián)網(wǎng),只能學(xué)到數(shù)據(jù)中心的固定模式而非現(xiàn)實(shí)世界的第一人稱(chēng)視角,無(wú)法從真實(shí)世界中直接學(xué)習(xí),也無(wú)法適應(yīng)真實(shí)的世界。具身智能是通往通用人工智能的關(guān)鍵鑰匙,賦予機(jī)器人實(shí)踐學(xué)習(xí)的能力,而實(shí)踐性學(xué)習(xí)使得機(jī)器人像人一樣,通過(guò)物理身體與環(huán)境的互動(dòng)來(lái)學(xué)習(xí),主動(dòng)感知或通過(guò)做任務(wù)的方式來(lái)感知世界,具身智能機(jī)器人將是人工智能的終極形態(tài)。 03 科技巨頭各展所長(zhǎng) 探尋具身智能的實(shí)現(xiàn)路徑 對(duì)于極具潛力的成長(zhǎng)潛力的居身智能市場(chǎng),各大科技巨頭也是鉚足了勁兒想要爭(zhēng)奪更多市場(chǎng)話語(yǔ)權(quán)。除了前面提到特斯拉與英偉達(dá)外,目前谷歌、微軟等技術(shù)團(tuán)隊(duì)、眾多頂尖研究院所和高校已探索具身智能的發(fā)展落地。 微軟,ChatGPT for Robotics:在微軟研究院發(fā)布“ChatGPT for Robotics” 文章中,研究者使用ChatGPT大型語(yǔ)言模型 (LLM) 將人的語(yǔ)言快速轉(zhuǎn)換為機(jī)器人的高層控制代碼,從而控制機(jī)械臂、無(wú)人機(jī)等機(jī)器人,ChatGPT帶來(lái)了一種新的機(jī)器人應(yīng)用范例。 微軟ChatGPT for Robotics研究者使用ChatGPT大型語(yǔ)言模型 (LLM) 將人的語(yǔ)言快速轉(zhuǎn)換為機(jī)器人的高層控制代碼 在Microsoft Research 的 ChatGPT for Robotics 文章中,研究者使用 ChatGPT生成機(jī)器人的高層控制代碼,從而可以通過(guò)自然語(yǔ)言和ChatGPT交流,使用 ChatGPT來(lái)控制機(jī)械臂、無(wú)人機(jī)、移動(dòng)機(jī)器人等機(jī)器人。 目前實(shí)驗(yàn)已經(jīng)能夠通過(guò)給 ChatGPT的對(duì)話框輸入指令,讓其控制機(jī)器人在房間中找到“健康飲料”“有糖和紅色標(biāo)志的東西”(可樂(lè)),以及一面供無(wú)人機(jī)自拍的鏡子。 谷歌,視覺(jué)語(yǔ)言大模型PaLM-E:今年3月,谷歌與德國(guó)柏林工業(yè)大學(xué)的一組人工智能研究人員公布了視覺(jué)語(yǔ)言模型PaLM-E(Pathways Language Model with Embodied),集成了5400億參數(shù)量的PaLM模型和220億參數(shù)量的視覺(jué)ViT(Vison Transformer)模型,總參數(shù)量達(dá)到5620億,是目前已知的最大的視覺(jué)-語(yǔ)言模型。 谷歌PaLM-E是目前已知的最大的視覺(jué)-語(yǔ)言模型 PaLM-E模型具備多模態(tài)能力,能夠觀察物理實(shí)體世界的信息,由大模型進(jìn)行分析理解,再將決策結(jié)果反饋至物理世界,由此溝通物理和虛擬兩個(gè)世界。該模型在多任務(wù)中表現(xiàn)了強(qiáng)大的感知能力,機(jī)器人可以在要求下從抽屜里拿東西,然后走過(guò)去遞給人;研究人員要求機(jī)器人將“綠色色塊推到烏龜旁邊”的指令,即便機(jī)器人之前沒(méi)有見(jiàn)過(guò)這只烏龜擺件,也能完成任務(wù)。 同時(shí),PaLM-E通過(guò)分析來(lái)自機(jī)器人攝像頭的數(shù)據(jù)來(lái)實(shí)現(xiàn)對(duì)高級(jí)命令的執(zhí)行,而無(wú)需對(duì)場(chǎng)景進(jìn)行預(yù)處理,這消除了人類(lèi)對(duì)數(shù)據(jù)進(jìn)行預(yù)處理或注釋的需要,并允許更自主的機(jī)器人控制。 Meta,SAM分割模型:2023年4月6日,Meta 推出一個(gè)AI模型 Segment Anything Model(SAM分割一切模型),能夠根據(jù)文本指令等方式實(shí)現(xiàn)圖像分割。SAM 任務(wù)目的:零樣本( zero-shot)或者簡(jiǎn)單 prompt 下,就對(duì)任意圖片進(jìn)行精細(xì)分割。 SAM證明,多種多樣的分割任務(wù)是可以被一個(gè)通用大模型涵蓋的。SAM 做到的分割切并不是 CV大模型的終點(diǎn),我們期待一個(gè)模型可以無(wú)監(jiān)督完成分割、檢測(cè)、識(shí)別、跟蹤等所有 CV 任務(wù),屆時(shí)視覺(jué)大模型應(yīng)用會(huì)得到極大發(fā)展。 伯克利的LM-Nav模型:UC Berkeley、波蘭華沙大學(xué)聯(lián)合谷歌機(jī)器人團(tuán)隊(duì)發(fā)表論文《LM-Nav:具有大型預(yù)訓(xùn)練語(yǔ)言、視覺(jué)和動(dòng)作模型的機(jī)器人導(dǎo)航系統(tǒng)》,該模型結(jié)合了三種預(yù)訓(xùn)練模型,從而無(wú)需用戶(hù)注釋即可執(zhí)行自然語(yǔ)言指令。 其中,大語(yǔ)言模型(LLM)用于完成自然語(yǔ)言處理的任務(wù);視覺(jué)和語(yǔ)言模型(VLM )將圖像和文本信息進(jìn)行關(guān)聯(lián),即用戶(hù)指令和機(jī)器人視覺(jué)感知的外部環(huán)境進(jìn)行關(guān)聯(lián);視覺(jué)導(dǎo)航模型(VNM)用于從其觀察到的信息中直接進(jìn)行導(dǎo)航將圖像和將要執(zhí)行的任務(wù)按時(shí)間進(jìn)行關(guān)聯(lián)。 04 政策驅(qū)動(dòng),AI+機(jī)器人快速落地 人形機(jī)器人應(yīng)用需求大,在智能制造、智能服務(wù)、人機(jī)協(xié)作等方面都將有廣闊的應(yīng)用場(chǎng)景。特斯拉股東大會(huì)上,馬斯克稱(chēng)特斯拉的長(zhǎng)期價(jià)值將主要來(lái)自人形機(jī)器人,并預(yù)測(cè)人形機(jī)器人需求將達(dá)100億臺(tái),遠(yuǎn)超汽車(chē),如果機(jī)器人與人的比例為2:1,需求將達(dá)到200億臺(tái)。 據(jù)麥肯錫報(bào)告,到2030年,全球約有4億個(gè)工作崗位將被自動(dòng)化機(jī)器人取代,按20%滲透率和15萬(wàn)-20萬(wàn)人形機(jī)器人單價(jià)來(lái)測(cè)算,全球人形機(jī)器人市場(chǎng)空間可達(dá)到12萬(wàn)億—16萬(wàn)億元。中性預(yù)測(cè)下,2030年全球人形機(jī)器人市場(chǎng)規(guī)模855億元,2021—2030年市場(chǎng)規(guī)模CAGR可達(dá)到71%。根據(jù)中國(guó)電子學(xué)會(huì)數(shù)據(jù),國(guó)內(nèi)機(jī)器人2024年有望達(dá)251億美元市場(chǎng)規(guī)模,2020—2024年CAGR約22%。 面對(duì)如此高成長(zhǎng)的市場(chǎng),我國(guó)發(fā)布了不少行業(yè)扶持政策。2023年1月,工信部等十七部門(mén)發(fā)布《“機(jī)器人+”應(yīng)用行動(dòng)實(shí)施方案》,該政策明晰了“十四五”期間機(jī)器人行業(yè)的發(fā)展目標(biāo)。5月19日,科技部部長(zhǎng)王志剛在2023第七屆世界智能大會(huì)開(kāi)幕式暨創(chuàng)新發(fā)展高峰會(huì)上表示,將加大人工智能基礎(chǔ)理論和前沿技術(shù)研發(fā)布局,打造一批人工智能區(qū)域高地和技術(shù)平臺(tái)。 此外,地方政府出臺(tái)具體行動(dòng)方案,落實(shí)頂層設(shè)計(jì)。4月下旬以來(lái),北京市印發(fā)《北京市機(jī)器人產(chǎn)業(yè)創(chuàng)新發(fā)展行動(dòng)方案(2023—2025年)(征求意見(jiàn)稿)》,明確指出,成立人形機(jī)器人產(chǎn)業(yè)開(kāi)放聯(lián)盟,到2025年,建成人形機(jī)器人通用行為控制大模型服務(wù)開(kāi)發(fā)平臺(tái)、共性技術(shù)服務(wù)平臺(tái)、后陸續(xù)印發(fā)《北京市促進(jìn)通用人工智能創(chuàng)新發(fā)展的若干措施(2023—2025年)(征求意見(jiàn)稿)》和《北京市加快建設(shè)具有全球影響力的人工智能創(chuàng)新策源地實(shí)施方案(2023—2025年)》,以推動(dòng)人工智能發(fā)展取得變革性、顛覆性突破。 而在諸多利好政策的推動(dòng)下,整個(gè)具身智能領(lǐng)域也有望進(jìn)入爆發(fā)式發(fā)展階段。 編輯|張毅 審核|吳新
|
|
來(lái)自: netouch > 《我的圖書(shū)館》