具身智能？它為何能賦予機(jī)器人靈魂

netouch 2023-06-04 發(fā)布于北京

展開(kāi)全文

AI發(fā)展的下一站在哪里？“算力霸主”英偉達(dá)創(chuàng)始人兼首席執(zhí)行官黃仁勛給出了答案：具身智能/具身人工智能。

特斯拉與英偉達(dá)站臺(tái)，“具身智能”爆火

兩大科技巨頭齊齊站臺(tái)，“具身智能”成為繼ChatGPT后最火爆的存在。日前，Optimus和NVIDIAVIMA在海外科技巨頭布局人形機(jī)器人賽道掀起 “人形機(jī)器人”浪潮。

5月16日，特斯拉2023股東大會(huì)展示了Optimus人形機(jī)器人最新進(jìn)展，包括撿起物品、環(huán)境發(fā)現(xiàn)和記憶，基于AI模仿人類(lèi)動(dòng)作，能完成分類(lèi)物品的復(fù)雜任務(wù)。從視頻中能夠看到，特斯拉機(jī)器人取得全方位進(jìn)展，運(yùn)動(dòng)控制能力持續(xù)進(jìn)化，AI能力大幅提升。

5月17日，NVIDIA創(chuàng)始人黃仁勛在ITF2023年半導(dǎo)體大會(huì)上向觀眾介紹了多模態(tài)人工智能技術(shù)NVIDIAVIMA，VIMA能根據(jù)視覺(jué)、文本提示執(zhí)行任務(wù)。除此之外，其他海外科技巨頭也加快布局人形機(jī)器人，谷歌PaLM-E作為多模態(tài)具身視覺(jué)語(yǔ)言模型，不僅能夠理解圖像，還能理解、生成語(yǔ)言，執(zhí)行各種機(jī)器人指令而無(wú)需重新訓(xùn)練；微軟持續(xù)探索將ChatGPT擴(kuò)展到機(jī)器人領(lǐng)域，從而運(yùn)用語(yǔ)言直觀控制機(jī)械臂、無(wú)人機(jī)等，而早在3月28日，Ope-nAI領(lǐng)投挪威機(jī)器人制造商1XTechnolo-giesA2輪投資，以創(chuàng)造具有實(shí)際應(yīng)用價(jià)值的機(jī)器人。

NVIDIA創(chuàng)始人黃仁勛

NVIDIA創(chuàng)始人黃仁勛認(rèn)為，下一波人工智能浪潮是“具身人工智能”，即能夠理解、推理并與物理世界互動(dòng)的智能系統(tǒng)；不同于傳統(tǒng)機(jī)器人僅具有“物理”執(zhí)行力，大模型可通過(guò)將圖像、文字、具身數(shù)據(jù)聯(lián)合訓(xùn)練，引入多模態(tài)輸入，進(jìn)而提升大模型和環(huán)境的交互能力和學(xué)習(xí)能力，為機(jī)器人注入了“靈魂”。

何為“具身智能”，賦予機(jī)器人靈魂

具身智能指的是智能體通過(guò)與環(huán)境產(chǎn)生交互后，通過(guò)自身的學(xué)習(xí)，產(chǎn)生對(duì)于客觀世界的理解和改造能力。換言之，一個(gè)具身智能機(jī)器人需要：首先聽(tīng)懂人類(lèi)語(yǔ)言，之后分解任務(wù)、規(guī)劃子任務(wù)，移動(dòng)中識(shí)別物體，與環(huán)境交互，最終完成相應(yīng)任務(wù)。正如斯坦福大學(xué)計(jì)算機(jī)科學(xué)教授李飛飛所說(shuō)，“具身的含義不是身體本身，而是與環(huán)境交互以及在環(huán)境中做事的整體需求和功能?！?/div>

“具身智能”最初可追溯到1950年，當(dāng)時(shí)圖靈在論文《Computing Machinery and Intelligence》中首次提出了這一概念。但在之后的幾十年中，具身智能都沒(méi)有取得特別顯著的進(jìn)展，大多數(shù)機(jī)器人的行動(dòng)依舊仰賴(lài)人類(lèi)的手寫(xiě)指令與代碼。

這也是為何上文那個(gè)谷歌“史上最大'通才’AI模型”能引起業(yè)內(nèi)轟動(dòng)——它無(wú)需預(yù)先處理的場(chǎng)景，因此也不用人類(lèi)對(duì)相關(guān)數(shù)據(jù)進(jìn)行預(yù)處理或注釋。只需要一句簡(jiǎn)單的指令，便可實(shí)現(xiàn)更為自主的機(jī)器人控制。更重要的是，PaLM-E生成的行動(dòng)計(jì)劃還具有“彈性”，即可對(duì)周?chē)h(huán)境變化做出相應(yīng)反應(yīng)。

谷歌PaLM-E以多模態(tài)為主要特征，切實(shí)地與物理世界產(chǎn)生交互

從這點(diǎn)來(lái)看，“具身”所指代的，便是客觀物理存在的“身體”，對(duì)于身體所承載的“認(rèn)知” 帶來(lái)的各種影響。認(rèn)知不能脫離身體單獨(dú)存在。與"具身相對(duì)的概念是“離身”(Disembodiment)，指的是認(rèn)知與身體解耦。

“智能”粗略定義為智能體（生物或機(jī)械）與環(huán)境交互后，通過(guò)自身的學(xué)習(xí)，產(chǎn)生對(duì)于客觀世界的理解和改造能力。具身智能機(jī)器人，可以簡(jiǎn)單理解為各種不同形態(tài)的機(jī)器人，讓它們?cè)谡鎸?shí)的物理環(huán)境下執(zhí)行各種各樣的任務(wù)，來(lái)完成人工智能的進(jìn)化過(guò)程。這種“具身智能”的進(jìn)化，是純軟件系統(tǒng)當(dāng)中的進(jìn)化替代不了的。

最新的人工智能研究發(fā)現(xiàn)，智能生物的智能化程度，和它的身體結(jié)構(gòu)之間，存在很強(qiáng)的正相關(guān)性。也就是說(shuō)，對(duì)于智能生物來(lái)說(shuō)，身體不是一部等待加載“智能算法”的機(jī)器，而是身體本身就參與了算法的進(jìn)化。今天地球上所有的智力活動(dòng)，都是生物通過(guò)自己的身體，直直切切地與環(huán)境產(chǎn)生交與之后，同時(shí)自身的學(xué)習(xí)和進(jìn)化所遺留下來(lái)的“智力遺產(chǎn)”。這個(gè)過(guò)程，已經(jīng)被大型的計(jì)算機(jī)模擬實(shí)驗(yàn)所證實(shí)。

而在具體應(yīng)用中以掃地機(jī)器人為例，有了具身智能的掃地機(jī)器人，能夠自我學(xué)習(xí)之后，把以前它掃不到掃不干凈的地方，慢慢找到好的方法掃得更有效率和成果，因?yàn)槟愕膾咴跈C(jī)在更熟悉自己身體的情況下，慢慢變聰明了。還有你如果用路徑規(guī)劃，其被你點(diǎn)播得多了自己也更熟悉這個(gè)環(huán)境，下次自己可能就能找到一條更有效率的行動(dòng)軌跡了，并且真正做到無(wú)死角，只要它能進(jìn)去就能掃好。整個(gè)過(guò)程如同一個(gè)老家政，來(lái)你家十幾次后干得那樣，明顯讓用戶(hù)感到有進(jìn)步。

如果將AI其具象化，給這個(gè)大腦賦予“身體”，那么就會(huì)是另一種形態(tài)，比如AI+汽車(chē)=智能汽車(chē)，AI+機(jī)器人=具身智能機(jī)器人，再或者，在未來(lái)某個(gè)時(shí)點(diǎn)AI+汽車(chē)+機(jī)器人=變形金剛也是有可能的。隨著技術(shù)更迭，具身智能的出現(xiàn)會(huì)持續(xù)引領(lǐng)“大模型+機(jī)器人”潮流，而馬斯克推出的人形機(jī)器人Optimus無(wú)疑是其中極具代表性的作品。

現(xiàn)有機(jī)器人的學(xué)習(xí)模式為“旁觀型學(xué)習(xí)”，訓(xùn)練數(shù)據(jù)來(lái)自互聯(lián)網(wǎng)，只能學(xué)到數(shù)據(jù)中心的固定模式而非現(xiàn)實(shí)世界的第一人稱(chēng)視角，無(wú)法從真實(shí)世界中直接學(xué)習(xí)，也無(wú)法適應(yīng)真實(shí)的世界。具身智能是通往通用人工智能的關(guān)鍵鑰匙，賦予機(jī)器人實(shí)踐學(xué)習(xí)的能力，而實(shí)踐性學(xué)習(xí)使得機(jī)器人像人一樣，通過(guò)物理身體與環(huán)境的互動(dòng)來(lái)學(xué)習(xí)，主動(dòng)感知或通過(guò)做任務(wù)的方式來(lái)感知世界，具身智能機(jī)器人將是人工智能的終極形態(tài)。

科技巨頭各展所長(zhǎng)

探尋具身智能的實(shí)現(xiàn)路徑

對(duì)于極具潛力的成長(zhǎng)潛力的居身智能市場(chǎng)，各大科技巨頭也是鉚足了勁兒想要爭(zhēng)奪更多市場(chǎng)話語(yǔ)權(quán)。除了前面提到特斯拉與英偉達(dá)外，目前谷歌、微軟等技術(shù)團(tuán)隊(duì)、眾多頂尖研究院所和高校已探索具身智能的發(fā)展落地。

微軟，ChatGPT for Robotics：在微軟研究院發(fā)布“ChatGPT for Robotics” 文章中，研究者使用ChatGPT大型語(yǔ)言模型 (LLM) 將人的語(yǔ)言快速轉(zhuǎn)換為機(jī)器人的高層控制代碼，從而控制機(jī)械臂、無(wú)人機(jī)等機(jī)器人，ChatGPT帶來(lái)了一種新的機(jī)器人應(yīng)用范例。

微軟ChatGPT for Robotics研究者使用ChatGPT大型語(yǔ)言模型 (LLM) 將人的語(yǔ)言快速轉(zhuǎn)換為機(jī)器人的高層控制代碼

在Microsoft Research 的 ChatGPT for Robotics 文章中，研究者使用 ChatGPT生成機(jī)器人的高層控制代碼，從而可以通過(guò)自然語(yǔ)言和ChatGPT交流，使用 ChatGPT來(lái)控制機(jī)械臂、無(wú)人機(jī)、移動(dòng)機(jī)器人等機(jī)器人。

目前實(shí)驗(yàn)已經(jīng)能夠通過(guò)給 ChatGPT的對(duì)話框輸入指令，讓其控制機(jī)器人在房間中找到“健康飲料”“有糖和紅色標(biāo)志的東西”（可樂(lè)），以及一面供無(wú)人機(jī)自拍的鏡子。

谷歌，視覺(jué)語(yǔ)言大模型PaLM-E：今年3月，谷歌與德國(guó)柏林工業(yè)大學(xué)的一組人工智能研究人員公布了視覺(jué)語(yǔ)言模型PaLM-E（Pathways Language Model with Embodied），集成了5400億參數(shù)量的PaLM模型和220億參數(shù)量的視覺(jué)ViT（Vison Transformer）模型，總參數(shù)量達(dá)到5620億，是目前已知的最大的視覺(jué)－語(yǔ)言模型。

谷歌PaLM-E是目前已知的最大的視覺(jué)－語(yǔ)言模型

PaLM-E模型具備多模態(tài)能力，能夠觀察物理實(shí)體世界的信息，由大模型進(jìn)行分析理解，再將決策結(jié)果反饋至物理世界，由此溝通物理和虛擬兩個(gè)世界。該模型在多任務(wù)中表現(xiàn)了強(qiáng)大的感知能力，機(jī)器人可以在要求下從抽屜里拿東西，然后走過(guò)去遞給人；研究人員要求機(jī)器人將“綠色色塊推到烏龜旁邊”的指令，即便機(jī)器人之前沒(méi)有見(jiàn)過(guò)這只烏龜擺件，也能完成任務(wù)。

同時(shí)，PaLM-E通過(guò)分析來(lái)自機(jī)器人攝像頭的數(shù)據(jù)來(lái)實(shí)現(xiàn)對(duì)高級(jí)命令的執(zhí)行，而無(wú)需對(duì)場(chǎng)景進(jìn)行預(yù)處理，這消除了人類(lèi)對(duì)數(shù)據(jù)進(jìn)行預(yù)處理或注釋的需要，并允許更自主的機(jī)器人控制。

Meta，SAM分割模型：2023年4月6日，Meta 推出一個(gè)AI模型 Segment Anything Model(SAM分割一切模型），能夠根據(jù)文本指令等方式實(shí)現(xiàn)圖像分割。SAM 任務(wù)目的：零樣本（ zero-shot）或者簡(jiǎn)單 prompt 下，就對(duì)任意圖片進(jìn)行精細(xì)分割。

SAM證明，多種多樣的分割任務(wù)是可以被一個(gè)通用大模型涵蓋的。SAM 做到的分割切并不是 CV大模型的終點(diǎn)，我們期待一個(gè)模型可以無(wú)監(jiān)督完成分割、檢測(cè)、識(shí)別、跟蹤等所有 CV 任務(wù)，屆時(shí)視覺(jué)大模型應(yīng)用會(huì)得到極大發(fā)展。

伯克利的LM-Nav模型：UC Berkeley、波蘭華沙大學(xué)聯(lián)合谷歌機(jī)器人團(tuán)隊(duì)發(fā)表論文《LM-Nav：具有大型預(yù)訓(xùn)練語(yǔ)言、視覺(jué)和動(dòng)作模型的機(jī)器人導(dǎo)航系統(tǒng)》，該模型結(jié)合了三種預(yù)訓(xùn)練模型，從而無(wú)需用戶(hù)注釋即可執(zhí)行自然語(yǔ)言指令。

其中，大語(yǔ)言模型（LLM）用于完成自然語(yǔ)言處理的任務(wù)；視覺(jué)和語(yǔ)言模型（VLM ）將圖像和文本信息進(jìn)行關(guān)聯(lián)，即用戶(hù)指令和機(jī)器人視覺(jué)感知的外部環(huán)境進(jìn)行關(guān)聯(lián)；視覺(jué)導(dǎo)航模型（VNM）用于從其觀察到的信息中直接進(jìn)行導(dǎo)航將圖像和將要執(zhí)行的任務(wù)按時(shí)間進(jìn)行關(guān)聯(lián)。

政策驅(qū)動(dòng)，AI+機(jī)器人快速落地

人形機(jī)器人應(yīng)用需求大，在智能制造、智能服務(wù)、人機(jī)協(xié)作等方面都將有廣闊的應(yīng)用場(chǎng)景。特斯拉股東大會(huì)上，馬斯克稱(chēng)特斯拉的長(zhǎng)期價(jià)值將主要來(lái)自人形機(jī)器人，并預(yù)測(cè)人形機(jī)器人需求將達(dá)100億臺(tái)，遠(yuǎn)超汽車(chē)，如果機(jī)器人與人的比例為2:1，需求將達(dá)到200億臺(tái)。

據(jù)麥肯錫報(bào)告，到2030年，全球約有4億個(gè)工作崗位將被自動(dòng)化機(jī)器人取代，按20%滲透率和15萬(wàn)-20萬(wàn)人形機(jī)器人單價(jià)來(lái)測(cè)算，全球人形機(jī)器人市場(chǎng)空間可達(dá)到12萬(wàn)億—16萬(wàn)億元。中性預(yù)測(cè)下，2030年全球人形機(jī)器人市場(chǎng)規(guī)模855億元，2021—2030年市場(chǎng)規(guī)模CAGR可達(dá)到71%。根據(jù)中國(guó)電子學(xué)會(huì)數(shù)據(jù)，國(guó)內(nèi)機(jī)器人2024年有望達(dá)251億美元市場(chǎng)規(guī)模，2020—2024年CAGR約22%。

面對(duì)如此高成長(zhǎng)的市場(chǎng)，我國(guó)發(fā)布了不少行業(yè)扶持政策。2023年1月，工信部等十七部門(mén)發(fā)布《“機(jī)器人+”應(yīng)用行動(dòng)實(shí)施方案》，該政策明晰了“十四五”期間機(jī)器人行業(yè)的發(fā)展目標(biāo)。5月19日，科技部部長(zhǎng)王志剛在2023第七屆世界智能大會(huì)開(kāi)幕式暨創(chuàng)新發(fā)展高峰會(huì)上表示，將加大人工智能基礎(chǔ)理論和前沿技術(shù)研發(fā)布局，打造一批人工智能區(qū)域高地和技術(shù)平臺(tái)。

此外，地方政府出臺(tái)具體行動(dòng)方案，落實(shí)頂層設(shè)計(jì)。4月下旬以來(lái)，北京市印發(fā)《北京市機(jī)器人產(chǎn)業(yè)創(chuàng)新發(fā)展行動(dòng)方案（2023—2025年）（征求意見(jiàn)稿）》，明確指出，成立人形機(jī)器人產(chǎn)業(yè)開(kāi)放聯(lián)盟，到2025年，建成人形機(jī)器人通用行為控制大模型服務(wù)開(kāi)發(fā)平臺(tái)、共性技術(shù)服務(wù)平臺(tái)、后陸續(xù)印發(fā)《北京市促進(jìn)通用人工智能創(chuàng)新發(fā)展的若干措施（2023—2025年）（征求意見(jiàn)稿）》和《北京市加快建設(shè)具有全球影響力的人工智能創(chuàng)新策源地實(shí)施方案（2023—2025年）》，以推動(dòng)人工智能發(fā)展取得變革性、顛覆性突破。

而在諸多利好政策的推動(dòng)下，整個(gè)具身智能領(lǐng)域也有望進(jìn)入爆發(fā)式發(fā)展階段。

編輯｜張毅

審核｜吳新

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶(hù)發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自： netouch > 《我的圖書(shū)館》

舉報(bào)/認(rèn)領(lǐng)