特斯拉擎天柱機(jī)器人視頻爆了！端到端AI大腦加持，挑戰(zhàn)高難度瑜伽

天承辦公室 2023-09-25

展開全文

編輯：桃子好困

【新智元導(dǎo)讀】特斯拉人形機(jī)器人「擎天柱」最新視頻公開，在端到端神經(jīng)網(wǎng)絡(luò)加持下，能夠精準(zhǔn)分類物體、找準(zhǔn)身體平衡感，讓眾多網(wǎng)友驚呼將改變?nèi)祟悺?/h2>
周末，特斯拉人形機(jī)器人「擎天柱」一波更新，引眾多網(wǎng)友圍觀。
官方發(fā)布的一個(gè)視頻中，「擎天柱」現(xiàn)在可以自主對(duì)對(duì)象進(jìn)行排序。
這全憑背后的神經(jīng)網(wǎng)絡(luò)完成了端到端的訓(xùn)練，即「視頻輸入，控制輸出」。
它現(xiàn)在能夠自我精確操控手部，以及腿部的動(dòng)作，更高效學(xué)習(xí)各種任務(wù)。
甚至，只利用視覺和關(guān)節(jié)位置編碼器，就能夠在空間中精確定位手的位置。
另外，它的神經(jīng)網(wǎng)絡(luò)完全在車載設(shè)備上運(yùn)行，而且僅使用視覺能力。
在強(qiáng)大技術(shù)加持背后，使得「擎天柱」能夠自動(dòng)分類不同顏色的積木塊。
即便是有人干擾，「擎天柱」也不畏懼，還在認(rèn)真工作。它還有自主糾正的能力，積木倒了，拿起來再擺正。
不僅能分類積木，還能執(zhí)行與之相反的動(dòng)作，把積木再拿出來。
干了一天的活，再做個(gè)舒展運(yùn)動(dòng)。此時(shí)，「擎天柱」單腿直立，雙臂伸展，有模有樣。
最后雙手合十「Namaste」。
看過視頻的網(wǎng)友驚嘆道，不到2年前，「擎天柱」還需要被推上舞臺(tái)，而現(xiàn)在卻能如此快速地完成表演！而且，這不是事先編好的戲法！它使用的是AGI，太神奇了！
還有網(wǎng)友調(diào)侃道，看看「擎天柱」那平衡感......已經(jīng)在瑜伽上打敗我了。
這是2022年10月，在AI DAY上，「擎天柱」原型被三個(gè)壯漢，抬上來和大家打招呼。
馬斯克曾介紹，「擎天柱」與特斯拉FSD（全自動(dòng)駕駛）構(gòu)建的強(qiáng)大視覺系統(tǒng)能夠共通，兩者的底層模塊已經(jīng)打通。
在他看來，特斯拉一直以來都是一家AI公司，而不僅僅是汽車公司。
「很快，我們將會(huì)看到『擎天柱』的數(shù)量，將遠(yuǎn)遠(yuǎn)超過特斯拉汽車?！?/span>
如何實(shí)現(xiàn)？
在今年特斯拉的股東大會(huì)上，放出了5個(gè)「擎天柱」同時(shí)向前行進(jìn)的視頻。
相較于與去年首次亮相的「擎天柱」，已經(jīng)完成了非常大的迭代升級(jí)。
再到這次，通過視覺，精細(xì)控制手部動(dòng)作，更是加滿了buff。
英偉達(dá)高級(jí)科學(xué)家Jim Fan對(duì)擎天柱進(jìn)行了「逆向工程」，對(duì)其技術(shù)堆?？赡軐?shí)現(xiàn)的方式進(jìn)行了分析。
值得一提的是，Jim Fan的深度分析，甚至吸引到了馬斯克的回關(guān)！
1. 模仿學(xué)習(xí)
幾乎可以肯定，Optimus流暢的手部動(dòng)作，是基于對(duì)人類操作員的模仿學(xué)習(xí)（行為克?。┒?xùn)練出來的。
相比之下，如果采用在模擬中進(jìn)行強(qiáng)化學(xué)習(xí)的方法，則會(huì)造成抖動(dòng)的動(dòng)作和不自然的手部姿勢(shì)。
具體來說，有至少4種方法，可以用于收集人類的示范：
（1）定制遠(yuǎn)程操作系統(tǒng)：這是特斯拉團(tuán)隊(duì)最有可能采用的手段。
開源實(shí)例：ALOHA是斯坦福、UC伯克利和Meta開發(fā)的一種低成本的雙機(jī)械臂和遠(yuǎn)程操作系統(tǒng)。它能實(shí)現(xiàn)非常精確、靈巧的動(dòng)作，例如將AAA電池裝入遙控器或操作隱形眼鏡。
ALOHA項(xiàng)目地址：https://tonyzhaozh./aloha/
（2）動(dòng)作捕捉（MoCap）方法一：利用好萊塢電影中使用的MoCap系統(tǒng)來捕捉手部關(guān)節(jié)的細(xì)微動(dòng)作。
Optimus具有五個(gè)指頭的雙手是一個(gè)很好的設(shè)計(jì)策，從而可以實(shí)現(xiàn)直接映射——與人類操作員沒有「具象化差距」。
例如，演示人員戴上CyberGlove并抓住桌上的方塊。此時(shí)，CyberGlove會(huì)實(shí)時(shí)捕捉運(yùn)動(dòng)信號(hào)和觸覺反饋，并將其重新定向到Optimus上。
（3）動(dòng)作捕捉（MoCap）方法二：通過計(jì)算機(jī)視覺技術(shù)。
英偉達(dá)的DexPilot可以實(shí)現(xiàn)少標(biāo)注、無手套的數(shù)據(jù)采集，人類操作員只用自己的雙手即可完成任務(wù)。
其中，4個(gè)英特爾RealSense深度攝像頭和2個(gè)英偉達(dá)Titan XP GPU（是的，這是2019年的工作），可以將像素轉(zhuǎn)化為精確的運(yùn)動(dòng)信號(hào)，供機(jī)器人學(xué)習(xí)。
英偉達(dá)官方演示中，DexPilot系統(tǒng)加持下的機(jī)器人手臂，能夠精準(zhǔn)完成抓握、放置任務(wù)。
（4）VR頭顯：將訓(xùn)練室變成VR游戲，讓人類「扮演」Optimus。
使用原生VR控制器或CyberGlove來控制虛擬Optimus的雙手，可以帶來遠(yuǎn)程數(shù)據(jù)收集的優(yōu)勢(shì)——來自世界各地的標(biāo)注人員可以在不到現(xiàn)場(chǎng)的情況下做出貢獻(xiàn)。
比如，Jim Fan參與的iGibson家庭機(jī)器人模擬器等研究項(xiàng)目，就有類似的VR演示技術(shù)。
iGibson項(xiàng)目地址：https://svl./igibson/
以上4種并不相互排斥，Optimus可以根據(jù)不同的場(chǎng)景進(jìn)行組合使用。
2. 神經(jīng)架構(gòu)
Optimus是端到端訓(xùn)練的：輸入視頻，輸出動(dòng)作。
可以肯定，這是一個(gè)多模態(tài)Transformer，其中包含以下組件：
（1）圖像：高效的ViT變體，或者只是舊的ResNet/EfficientNet骨干網(wǎng)絡(luò)。塊的取放演示不需要復(fù)雜的視覺技術(shù)。圖像骨干的空間特征圖可以很容易地進(jìn)行分詞。
EfficientNet論文地址：https:///abs/1905.11946
（2）視頻：兩種方法。要么將視頻壓縮成一系列圖像并獨(dú)立生成token，要么使用視頻級(jí)的分詞器。
高效處理視頻像素卷的方法有很多。你不一定需要Transformer骨干網(wǎng)絡(luò)，例如SlowFast Network和RubiksNet。
SlowFast Network論文地址：https:///abs/1812.03982
RubiksNet項(xiàng)目地址：https://stanfordvl./rubiksnet-site/
（3）語言：目前還不清楚Optimus是否支持語言提示。如果是的話，就需要一種將語言表征與感知進(jìn)行「融合」的方法。
比如，輕量級(jí)神經(jīng)網(wǎng)絡(luò)模塊FiLM，就可以實(shí)現(xiàn)這個(gè)目的。你可以直觀地將其視為語言嵌入圖像處理神經(jīng)通路中的「交叉注意力」。
FiLM論文地址：https:///abs/1709.07871
（4）動(dòng)作分詞：Optimus需要將連續(xù)運(yùn)動(dòng)信號(hào)轉(zhuǎn)換為離散的token，從而使自回歸Transformer能夠正常工作。
- 直接將每個(gè)手關(guān)節(jié)控制的連續(xù)值分配到不同的區(qū)間。[0,0.01)->token#0，[0.01,0.02)->token#1，等等。這種方法簡(jiǎn)單明了，但由于序列長(zhǎng)度較長(zhǎng)，效率可能不高。
- 關(guān)節(jié)運(yùn)動(dòng)彼此高度依賴，這意味著它們占據(jù)了一個(gè)低維的「狀態(tài)空間」。將VQVAE應(yīng)用于運(yùn)動(dòng)數(shù)據(jù)，可獲得長(zhǎng)度更短的壓縮token集合。
（5）將上述部分組合在一起，我們就有了一個(gè)Transformer控制器，它消耗視頻token（可選擇性地通過語言進(jìn)行微調(diào)），并一步一步地輸出動(dòng)作token。
表格中的下一幀畫面會(huì)反饋給Transformer控制器，這樣它就知道了自己動(dòng)作的結(jié)果。這就是演示中展示的自我糾正能力。
其結(jié)構(gòu)與谷歌的RT-1和英偉達(dá)的VIMA會(huì)比較相似：
Google RT-1：https://search.google/2022/12/rt-1-robotics-transformer-for-real.html?m=1
NVIDIA VIMA：https://vimalabs.
3. 硬件質(zhì)量
正如前面提到的，緊跟人類形態(tài)是一個(gè)非常明智的決定，這樣在模仿人類時(shí)就沒有任何差距了。
從長(zhǎng)遠(yuǎn)來看，相比于波士頓動(dòng)力簡(jiǎn)陋的手部，Optimus具有五根手指的的雙手，將會(huì)在日常工作中表現(xiàn)得更加出色。
FSD是前菜，擎天柱才是未來
還有一位網(wǎng)友對(duì)特斯拉人形機(jī)器人的升級(jí)，感慨道「這將永遠(yuǎn)改變世界」。
在接下來的長(zhǎng)文中，他分析了擎天柱的技術(shù)升級(jí)，還有未來憧憬。
2021年8月19日，特斯拉首次向世界，展示了將要推出的一款人形機(jī)器人「Optimus Bot」。
當(dāng)場(chǎng)現(xiàn)身跳舞的只是穿著機(jī)器人演出套裝的人類。
然后，馬斯克進(jìn)行了10分鐘的演示，概述了將產(chǎn)品陣容擴(kuò)展到人形機(jī)器人的計(jì)劃。
時(shí)間快進(jìn)到現(xiàn)在，特斯拉已經(jīng)造出多個(gè)可用的機(jī)器人原型。
它們能夠自主行走、拾取、放置物體、周圍環(huán)境導(dǎo)航，以及執(zhí)行排序等任務(wù)。
最新視頻中，擎天柱已經(jīng)能夠完成積木分類。
乍一看，可能不會(huì)令人印象深刻，特別是當(dāng)你將它與波士頓動(dòng)力的機(jī)器人Artemis進(jìn)行后空翻和跑酷相比時(shí)。
但它「如何學(xué)會(huì)排序」是我想要關(guān)注的突破，這不僅對(duì)特斯拉，而且對(duì)全球勞動(dòng)力市場(chǎng)都具有令人興奮的影響。
「視頻輸入，控制輸出?！?/span>
這是馬斯克已經(jīng)談?wù)摿撕荛L(zhǎng)一段時(shí)間的主題。前提是構(gòu)建一個(gè)神經(jīng)網(wǎng)絡(luò)系統(tǒng)，不需要人類編寫告訴機(jī)器做什么的代碼。
而且，這套原理與特斯拉自動(dòng)駕駛系統(tǒng)FSD相通。
前段時(shí)間，馬斯克直播試駕FSD v12時(shí)，自豪地介紹背后神經(jīng)網(wǎng)絡(luò)的訓(xùn)練，全部使用的視頻數(shù)據(jù)，任務(wù)執(zhí)行的能力，不需要手寫一行代碼。
特斯拉總部有一個(gè)「AI大腦」，可以分析汽車收集的大量視頻數(shù)據(jù)，然后告訴汽車如何在道路上遇到的每個(gè)場(chǎng)景中行走。
特斯拉FSD沒有一行人類編寫代碼來解釋停車標(biāo)志、交通信號(hào)燈等，而是通過AI學(xué)會(huì)了如何通過觀察駕駛的情況來做到這一點(diǎn)。
這的確是一件大事。
這意味著，特斯拉現(xiàn)在受限于，可以從其電動(dòng)汽車駕駛中收集多少視頻數(shù)據(jù)，以及有多少芯片（來自英偉達(dá)H100及和內(nèi)部DOJO芯片）來處理這些數(shù)據(jù)。
好在，他們不再受到「代碼」突破的限制，所擁有的AI大腦，可以通過足夠的例子來解決這個(gè)問題。
更重要的是，這種解決現(xiàn)實(shí)世界駕駛問題的方法可以應(yīng)用于任何物理任務(wù)。
只需要輸入視頻，AI就會(huì)發(fā)出控制信號(hào)。于是，「擎天柱」機(jī)器人才是真正的未來。
即使「擎天柱」和特斯拉汽車看起來像是兩個(gè)完全不同的物體，但它們的共同點(diǎn)比看上去要多得多。
它們都使用軟件來導(dǎo)航其環(huán)境的物理對(duì)象，使用相同的車載計(jì)算機(jī)來處理所述軟件，使用相同的電池為電機(jī)供電，使每個(gè)物體都能移動(dòng)，使用人工智能大腦，通過分析無數(shù)視頻數(shù)據(jù)來自學(xué)如何執(zhí)行任務(wù)。
根據(jù)特斯拉迄今為止公布的信息，可以安全地假設(shè)機(jī)器人能夠做到這一點(diǎn)，不是因?yàn)槿祟惥帉懙拇a「拿起藍(lán)色塊，放入藍(lán)色區(qū)域」......
但通過分析按適當(dāng)顏色排序的塊的視頻片段，這與汽車學(xué)習(xí)自動(dòng)駕駛的方式?jīng)]有什么不同。
一個(gè)看似不起眼的動(dòng)作凸顯了這一點(diǎn)，但卻證明了這種方法有多么強(qiáng)大。
包括后面片段中，「擎天柱」擺正了側(cè)倒出的積木。這可能意味著AI大腦擁有的視頻片段顯示，物體被正面朝上分類，而不是側(cè)面朝上。
機(jī)器人無需人類代碼即可自動(dòng)理解它所排序的塊落在其一側(cè)，將其拾起，調(diào)整方向，然后將其放回正確的一側(cè)。
這意味著機(jī)器人能夠動(dòng)態(tài)調(diào)整，無需任何關(guān)于如何處理現(xiàn)實(shí)世界的復(fù)雜性的明確指示。
只要特斯拉能夠制造出一種能夠從物理角度可靠地執(zhí)行命令的機(jī)器人。這意味著執(zhí)行器、電池、手、關(guān)節(jié)等都被制造得極其耐用并且能夠重復(fù)處理任務(wù)。
世界將永遠(yuǎn)被改變。
憑借足夠的力量和靈活性，特斯拉的機(jī)器人只需觀看人們執(zhí)行上述任務(wù)的視頻片段，就可以處理幾乎所有的體力任務(wù)。
拿起吸塵器并在房子里運(yùn)行、分類折疊衣物、收拾屋子、將物料從A點(diǎn)移動(dòng)到B點(diǎn)、撿起垃圾并將其放入垃圾箱、推著割草機(jī)、監(jiān)控某個(gè)區(qū)域是否存在安全相關(guān)問題、砌磚、錘擊釘子、使用電動(dòng)工具、清洗盤子……
與汽車一樣，機(jī)器人在處理上述任務(wù)時(shí)不受代碼突破的限制。
它受限于特斯拉AI大腦可以處理的視頻數(shù)據(jù)和芯片數(shù)量的限制，來告訴機(jī)器人該做什么。
現(xiàn)在，憑借「擎天柱」，特斯拉開始轉(zhuǎn)型為世界上絕大多數(shù)人認(rèn)為，需要幾十年甚至幾千年才能實(shí)現(xiàn)的產(chǎn)品類別。但事實(shí)上，該公司正在敲響范式轉(zhuǎn)變的大門，這可能會(huì)顛覆工作的意義。
在最新的「馬斯克傳」中，摘錄了馬斯克和他的工程師之間的討論。
「機(jī)器人的目標(biāo)應(yīng)該是在不充電的情況下運(yùn)行16小時(shí)。」這相當(dāng)于2個(gè)8小時(shí)輪班的人力勞動(dòng)，而且完全不間斷。
它極大地降低了勞動(dòng)力成本，使產(chǎn)品和服務(wù)的預(yù)算可能只是現(xiàn)在的一小部分。而且它讓企業(yè)沒有理由在5年內(nèi)以7倍的成本來雇用一個(gè)人來生產(chǎn)產(chǎn)品和服務(wù)，做同樣的工作。
現(xiàn)實(shí)是，這個(gè)未來比許多人想象的要近得多。
特斯拉似乎已經(jīng)解決了人類勞動(dòng)中最困難的問題——AI大腦將根據(jù)在現(xiàn)實(shí)世界中分析的視頻自動(dòng)生成動(dòng)作。
憑借其制造專業(yè)知識(shí)，他們應(yīng)該能夠在未來幾十年內(nèi)，每年生產(chǎn)數(shù)百萬個(gè)這樣的產(chǎn)品，這應(yīng)該會(huì)帶來巨大的豐富。
參考資料：
https://twitter.com/Tesla_Optimus/status/1705728820693668189
https://twitter.com/DrJimFan/status/1705982525825503282
https://twitter.com/farzyness/status/1706006003135779299

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

特斯拉擎天柱機(jī)器人視頻爆了！端到端AI大腦加持，挑戰(zhàn)高難度瑜伽

特斯拉擎天柱機(jī)器人視頻爆了！端到端AI大腦加持，挑戰(zhàn)高難度瑜伽