重新排列物體(例如整理書架上的書籍、移動(dòng)餐桌上的餐具或推動(dòng)成堆的咖啡豆)是一項(xiàng)基本技能,可以使機(jī)器人與我們多樣化和非結(jié)構(gòu)化的世界進(jìn)行物理交互。雖然對(duì)人們來說很容易,但完成這些任務(wù)對(duì)于具身機(jī)器學(xué)習(xí) (ML) 系統(tǒng)來說仍然是一個(gè)開放的研究挑戰(zhàn),因?yàn)樗枰呒?jí)和低級(jí)的感知推理。例如,在堆放一堆書時(shí),可以考慮將書堆放在哪里,按什么順序堆放,同時(shí)確保書的邊緣對(duì)齊,形成整齊的堆放。 在 ML 的許多應(yīng)用領(lǐng)域,模型架構(gòu)的簡(jiǎn)單差異可以表現(xiàn)出截然不同的泛化特性。因此,人們可能會(huì)問是否有某些深層網(wǎng)絡(luò)架構(gòu)支持重排問題的簡(jiǎn)單底層元素。例如,卷積架構(gòu)在計(jì)算機(jī)視覺中很常見,因?yàn)樗鼈兙幋a平移不變性,即使圖像移位也會(huì)產(chǎn)生相同的響應(yīng),而Transformer 架構(gòu)在語言處理中很常見,因?yàn)樗鼈兝米宰⒁饬聿东@遠(yuǎn)程上下文依賴關(guān)系。在機(jī)器人應(yīng)用中,一種常見的架構(gòu)元素是使用以對(duì)象為中心的表示,例如姿勢(shì)、關(guān)鍵點(diǎn),或?qū)W習(xí)模型中的對(duì)象描述符,但這些表示需要額外的訓(xùn)練數(shù)據(jù)(通常手動(dòng)注釋)并且難以描述諸如可變形物(例如橡皮泥)、流體(蜂蜜)或成堆的東西(切碎的洋蔥)之類的困難場(chǎng)景。 今天,我們展示了Transporter Network,這是一種用于學(xué)習(xí)基于視覺的重排任務(wù)的簡(jiǎn)單模型架構(gòu),它在CoRL 2020期間作為出版物和全體會(huì)議發(fā)表。Transporter Nets 使用一種新穎的 3D 空間理解方法,避免了對(duì)以對(duì)象為中心的表示的依賴,使它們成為基于視覺的操作的通用方法,但比基準(zhǔn)的端到端替代方案具有更高的樣本效率。因此,它們?cè)谡嬲臋C(jī)器人上進(jìn)行訓(xùn)練既快速又實(shí)用。我們還與Ravens一起發(fā)布了一個(gè)隨附的 Transporter Nets 開源實(shí)現(xiàn),這是我們新的模擬基準(zhǔn)套件,包含十個(gè)基于視覺的操作任務(wù)。 Transporter Networks:為機(jī)器人操作重新排列視覺世界Transporter Network 架構(gòu)背后的關(guān)鍵思想是,人們可以將重新排列問題表述為學(xué)習(xí)如何移動(dòng)一大塊 3D 空間。而不是依賴于對(duì)象的明確定義(這必然難以捕捉所有邊緣情況),3D 空間是一個(gè)更廣泛的定義,可以作為重新排列的原子單元,并且可以廣泛地包含一個(gè)對(duì)象、一個(gè)對(duì)象的一部分或多個(gè)對(duì)象等。網(wǎng)絡(luò)通過捕獲 3D 視覺世界的深層表示來利用這種結(jié)構(gòu),然后將其部分疊加在自身上以想象 3D 空間的各種可能的重新排列。然后它選擇最匹配它在訓(xùn)練期間(例如,來自專家演示)看到的那些重排,并使用它們來參數(shù)化機(jī)器人動(dòng)作。這種公式允許 Transporter Nets 泛化到看不見的對(duì)象,并使它們能夠更好地利用數(shù)據(jù)中的幾何對(duì)稱性,以便它們可以外推到新的場(chǎng)景配置?;诳晒┬缘牟僮骱蚑ossingBot,只關(guān)注抓握和拋擲。 Transporter Nets 捕獲視覺世界的深層表示,然后將其部分疊加到自身上,以想象 3D 空間的各種可能的重新排列,以找到最佳的一個(gè)并告知機(jī)器人動(dòng)作。 Ravens 基準(zhǔn)為了在一致的環(huán)境中評(píng)估 Transporter Nets 的性能,以便與基線和消融進(jìn)行公平比較,我們開發(fā)了Ravens,這是一個(gè)包含十個(gè)模擬視覺重排任務(wù)的基準(zhǔn)套件。Ravens 的Gym API 具有內(nèi)置的隨機(jī)預(yù)言機(jī),用于評(píng)估模仿學(xué)習(xí)方法的樣本效率。Ravens 避免了無法轉(zhuǎn)移到真實(shí)設(shè)置的假設(shè):觀察數(shù)據(jù)僅包含 RGB-D 圖像和相機(jī)參數(shù);動(dòng)作是末端執(zhí)行器姿勢(shì)(轉(zhuǎn)換為具有反向運(yùn)動(dòng)學(xué)的關(guān)節(jié)位置)。 在這十項(xiàng)任務(wù)上的實(shí)驗(yàn)表明,Transporter Nets 的樣本效率比其他端到端方法高出幾個(gè)數(shù)量級(jí),并且僅用 100 次演示就能在許多任務(wù)上取得超過 90% 的成功,而基線很難用相同數(shù)量的數(shù)據(jù)。在實(shí)踐中,這使得收集足夠的演示成為在真實(shí)機(jī)器人上訓(xùn)練這些模型的更可行的選擇(我們?cè)谙旅嬲故玖耸纠?nbsp; 我們新的 Ravens 基準(zhǔn)測(cè)試包括十個(gè)基于視覺的模擬操作任務(wù),包括推和取放,實(shí)驗(yàn)表明 Transporter Nets 的樣本效率比其他端到端方法高幾個(gè)數(shù)量級(jí)。Ravens 的 Gym API 具有內(nèi)置的隨機(jī)預(yù)言機(jī),用于評(píng)估模仿學(xué)習(xí)方法的樣本效率。 我們新的Ravens基準(zhǔn)測(cè)試包括十個(gè)基于視覺的模擬操作任務(wù),包括推和取放,實(shí)驗(yàn)表明 Transporter Nets 的樣本效率比其他端到端方法高幾個(gè)數(shù)量級(jí)。Ravens 的Gym API 具有內(nèi)置的隨機(jī)預(yù)言機(jī),用于評(píng)估模仿學(xué)習(xí)方法的樣本效率。 亮點(diǎn) 通過10 個(gè)示例演示,Transporter Nets 可以學(xué)習(xí)拾取和放置任務(wù),例如堆疊盤子(令人驚訝的是容易錯(cuò)位?。嗄J饺蝿?wù),例如將盒子的任何角與桌面上的標(biāo)記對(duì)齊,或構(gòu)建金字塔金字塔。 通過利用閉環(huán)視覺反饋,Transporter Nets 能夠通過少量演示來學(xué)習(xí)各種多步驟順序任務(wù):例如移動(dòng)河內(nèi)塔的磁盤、碼垛箱或組裝訓(xùn)練期間未見過的新對(duì)象套件. 這些任務(wù)具有相當(dāng)長(zhǎng)的“視野”,這意味著要解決該任務(wù),模型必須正確排列許多單獨(dú)的選擇。政策也傾向于學(xué)習(xí)緊急恢復(fù)行為。 關(guān)于這些結(jié)果的一個(gè)令人驚訝的事情是,除了感知之外,這些模型還開始學(xué)習(xí)類似于高級(jí)規(guī)劃的行為。例如,要解決河內(nèi)塔,模型必須選擇下一個(gè)要移動(dòng)的圓盤,這需要根據(jù)當(dāng)前可見的圓盤及其位置識(shí)別棋盤的狀態(tài)。對(duì)于箱子碼垛任務(wù),模型必須找到托盤的空位,并確定新箱子如何裝入這些空位。這樣的行為令人興奮,因?yàn)樗鼈儽砻鳎辛怂袃?nèi)置的不變性,模型可以將其能力集中在學(xué)習(xí)更高級(jí)的操作模式上。 Transporter Nets 還可以學(xué)習(xí)使用由兩個(gè)末端執(zhí)行器姿勢(shì)定義的任何運(yùn)動(dòng)原語的任務(wù),例如將成堆的小物體推入目標(biāo)集,或重新配置可變形繩以連接 3 邊正方形的兩個(gè)端點(diǎn)。這表明剛性空間位移可以作為非剛性空間位移的有用先驗(yàn)。 結(jié)論Transporter Nets 為學(xué)習(xí)基于視覺的操作提供了一種很有前途的方法,但也不是沒有限制。例如,它們可能容易受到嘈雜的 3D 數(shù)據(jù)的影響,我們只展示了它們用于使用運(yùn)動(dòng)基元的基于稀疏路點(diǎn)的控制,目前尚不清楚如何將它們擴(kuò)展到空間動(dòng)作空間之外,以實(shí)現(xiàn)基于力或扭矩的動(dòng)作。 |
|