今天我們介紹一種創(chuàng)新的機器人基礎模型框架——π0。π0結(jié)合了大規(guī)模預訓練和微調(diào)策略,旨在通過在多樣化數(shù)據(jù)集上進行學習,使機器人能夠高效地解決一系列復雜的靈巧操作任務。該框架的獨特之處在于它融合了先進的視覺-語言模型(VLM)和流匹配技術,能夠生成高頻動作塊,幫助機器人在動態(tài)環(huán)境中精確執(zhí)行任務。 通用機器人策略:預訓練VLM +流匹配架構(gòu) 我們提出了一種新型的通用機器人策略,結(jié)合預訓練的視覺-語言模型(VLM)與流匹配架構(gòu),實現(xiàn)精確且流暢的操作技能。通過在多樣化的跨體型數(shù)據(jù)集上訓練,模型能夠直接基于提示執(zhí)行任務,或在高質(zhì)量數(shù)據(jù)上微調(diào)以完成復雜任務,如折疊衣物和組裝盒子。 挑戰(zhàn)與突破 針對機器人學習的泛化能力和數(shù)據(jù)問題,我們設計了一種新的基于流匹配的架構(gòu),利用互聯(lián)網(wǎng)規(guī)模的語義知識,成功提升機器人在復雜任務中的執(zhí)行能力。 上圖為π0控制一個移動操作機器人進行折疊衣物的任務。我們的模型預訓練于來自7種不同機器人配置和68個任務的多樣化數(shù)據(jù)集,隨后可以直接通過提示執(zhí)行任務,或通過微調(diào)用于復雜的下游任務。以該衣物折疊策略為例,機器人從烘干機取出衣物,將其裝入籃子中,將籃子搬運到折疊桌旁,然后逐件折疊每件衣物。 π0:通用機器人策略突破 我們提出π0,結(jié)合預訓練的視覺-語言模型(VLM)與基于流匹配的動作模型,實現(xiàn)靈巧機器人任務的突破性進展。通過多樣化的數(shù)據(jù)集,π0能高效完成折疊衣物、清理桌面、組裝盒子等復雜任務。 核心創(chuàng)新: 1.利用互聯(lián)網(wǎng)規(guī)模的語義知識進行預訓練 2.跨體型訓練整合多種機器人數(shù)據(jù) 3.基于流匹配的高頻連續(xù)動作控制 相關工作:探索機器人學習與多模態(tài)語言模型的前沿 我們的工作在大規(guī)模機器人學習和多模態(tài)語言模型的基礎上,提出了一種新型的視覺-語言-動作(VLA)模型,利用流匹配(flow matching)進行高頻率動作生成,成功應對以往自回歸VLA模型在靈巧任務中的挑戰(zhàn)。 核心創(chuàng)新: 1.流匹配動作生成: 采用擴散變體(flow matching),與傳統(tǒng)自回歸VLA模型相比,能夠生成高達50 Hz的高頻動作塊,實現(xiàn)靈巧控制。 2.大規(guī)模機器人數(shù)據(jù)集: 我們使用了約10,000小時的示范數(shù)據(jù),結(jié)合開源OXE數(shù)據(jù)集,推動了機器人學習的規(guī)?;M展。 3.跨體型模型: 通過整合來自單臂、雙臂和移動機器人的數(shù)據(jù),提升模型的適應性與通用性,處理復雜且長時間的任務。 顯著突破: 我們展示了機器人能夠?qū)W習并執(zhí)行長時間、多步驟、復雜的任務,如折疊衣物、清理桌面等,這些任務結(jié)合了靈巧性與物理操作的復雜性。我們的模型成功突破了以往在任務復雜性上的局限,展現(xiàn)了機器人學習的全新潛力。 上圖為我們的框架概述。我們首先使用一個預訓練混合數(shù)據(jù)集,該數(shù)據(jù)集包括我們自己的靈巧操作數(shù)據(jù)集和開源數(shù)據(jù)。我們利用這個混合數(shù)據(jù)集來訓練我們的流匹配VLA模型,該模型由一個更大的VLM骨干網(wǎng)絡和一個更小的動作專家組成,用于處理機器人狀態(tài)和動作。VLM骨干網(wǎng)絡的權(quán)重是從PaliGemma [5]初始化的,后者提供了從大規(guī)?;ヂ?lián)網(wǎng)預訓練中學習到的表示。最終得到的π0模型可以用來控制多種不同動作空間的機器人實現(xiàn)各種任務。 π0模型概述:多模態(tài)機器人控制的全新框架 我們提出的π0模型基于PaliGemma視覺-語言模型(VLM)并結(jié)合了創(chuàng)新的流匹配技術(flow matching),使得機器人能夠高效、靈活地執(zhí)行高頻率且復雜的動作任務。 核心創(chuàng)新: 1.流匹配生成動作: 通過流匹配技術建模連續(xù)動作分布,π0能以高精度控制機器人執(zhí)行靈巧任務(如折疊衣物、移動操作等),確保動作的平滑與連貫。 2.多模態(tài)輸入輸出: 采用條件流匹配架構(gòu),使模型能夠同時處理圖像、文本和機器人狀態(tài)信息,實現(xiàn)跨模態(tài)學習。 3.專家混合架構(gòu): 我們的設計包括一個“動作專家”模塊,用于優(yōu)化機器人特定任務的表現(xiàn),提高了對復雜機器人行為的建模能力。 訓練框架: π0模型采用分階段訓練方法: · 預訓練: 使用多樣化的任務和機器人配置數(shù)據(jù),確保模型具備廣泛的能力和良好的泛化性。 · 后訓練: 使用精選數(shù)據(jù)對模型進行優(yōu)化,以適應具體的復雜任務,并提高在靈巧操作中的表現(xiàn)。 成果: 我們展示了π0在高頻率控制和靈巧任務中的巨大潛力,尤其在處理如衣物折疊、桌面清理等長時任務時,展現(xiàn)了優(yōu)越的靈活性與精確性。 π0-small:非VLM基線模型的消融實驗 除了我們的主要VLA模型,我們還訓練了一個不使用VLM初始化的基線模型——π0-small,用于對比評估VLM預訓練的效果。該模型包含4.7億參數(shù),且未使用VLM初始化,旨在消融實驗中評估VLM的引入是否帶來性能提升。 關鍵特點: · 不使用VLM初始化: 直接從頭開始訓練模型,避免了VLM預訓練的影響。 · 參數(shù)數(shù)量: π0-small擁有4.7億參數(shù),雖比π0模型規(guī)模小,但通過一些小改動(詳見附錄C),我們發(fā)現(xiàn)這種設計有助于提高不使用VLM初始化時的訓練效率和效果。 · 對比評估: 通過對比π0-small與引入VLM初始化后的VLA模型,評估了VLM預訓練在提高模型泛化能力、任務適應性和靈巧性的作用。 消融實驗結(jié)果: · 提升效果: 我們發(fā)現(xiàn),引入VLM預訓練后,模型在多個任務上的表現(xiàn)顯著優(yōu)于未使用VLM的π0-small。 · 訓練效率: 在相同數(shù)據(jù)集上,VLM初始化加速了訓練過程,且提升了模型的泛化能力。 上圖為我們的數(shù)據(jù)集概述:預訓練混合數(shù)據(jù)集由OXE和π數(shù)據(jù)集的子集組成。我們使用OXE的一個子集,稱為OXE Magic Soup。右圖展示了不同數(shù)據(jù)集在預訓練混合數(shù)據(jù)集中的權(quán)重。左圖展示了它們的相對大小,按步驟數(shù)量衡量。 V.數(shù)據(jù)收集與訓練方案:構(gòu)建機器人基礎模型的多階段訓練流程 1??預訓練與后訓練: · 預訓練階段:目標是讓模型接觸多樣化的任務,獲得廣泛的通用物理能力。這一階段的數(shù)據(jù)集需涵蓋各種任務和多樣化的行為,確保模型能夠應對不同情境。 · 后訓練階段:專注于使模型流暢且高效地執(zhí)行特定下游任務。該階段的數(shù)據(jù)集需包括高質(zhì)量的、能夠有效執(zhí)行任務的行為。 2??數(shù)據(jù)集構(gòu)建與要求: · 預訓練數(shù)據(jù)集: ? 9.1%來自開源數(shù)據(jù)集,如OXE、Bridge v2和DROID,這些數(shù)據(jù)集的機器人和任務配置通常配備1至2個攝像頭,并使用低頻控制(2-10 Hz)。 ? 包括903M時間步的數(shù)據(jù)來自我們自主收集的多種任務,其中106M時間步來自單臂機器人,797M時間步來自雙臂機器人,任務涵蓋了從清理到復雜的物品操控任務。 · 后訓練數(shù)據(jù)集: ? 專注于高質(zhì)量的任務數(shù)據(jù),幫助模型高效學習流暢的策略。 3??任務定義: 我們對“任務”的定義不同于傳統(tǒng)方法,傳統(tǒng)方法通過動詞-名詞組合(如“拿起杯子”)來定義任務,而我們采取更廣泛的定義方式,涵蓋復雜行為和任務的各種變種,數(shù)據(jù)集中的實際任務數(shù)量遠超傳統(tǒng)定義的任務數(shù)。 總結(jié): · 預訓練數(shù)據(jù)幫助模型應對多樣化情境,提升廣泛適應能力。 · 后訓練數(shù)據(jù)則專注于提升任務執(zhí)行的效率和策略流暢度。 · 我們的訓練方案通過多樣化和高質(zhì)量的數(shù)據(jù),構(gòu)建了一個具有高通用性和精細化執(zhí)行能力的機器人基礎模型。 B.語言和高層策略 C.機器人系統(tǒng)細節(jié) · UR5e:一個配備并聯(lián)夾爪的機械臂,具有腕部攝像頭和肩部攝像頭,總共提供兩張圖像,配置和動作空間為7維。 · 雙臂UR5e:由兩個UR5e組成,總共提供三張圖像,配置和動作空間為14維。 · Franka:Franka平臺配備兩個攝像頭,配置和動作空間為8維。 · 雙臂Trossen:該設置包含兩個6自由度的Trossen ViperX機械臂,基于ALOHA平臺[4, 57],配備兩個腕部攝像頭和一個底座攝像頭,配置和動作空間為14維。 · 雙臂ARX和雙臂AgileX:該設置使用兩個6自由度機械臂,可支持ARX或AgileX臂,配備三個攝像頭(兩個腕部攝像頭和一個底座攝像頭),配置和動作空間為14維。這一類別涵蓋了兩個不同的平臺,但由于其運動學特性相似,我們將它們歸為一類。 · 移動Trossen和移動ARX:基于移動ALOHA [57]平臺,配備兩個6自由度機械臂和一個非全向移動底座。底座增加了兩個動作維度,總配置空間為14維,動作空間為16維,配備兩個腕部攝像頭和一個底座攝像頭。這一類別也涵蓋了兩個不同的平臺,但由于其運動學特性相似,我們將它們歸為一類。 · 移動Fibocom:配備兩個6自由度ARX機械臂和一個全向移動底座。底座增加了三個動作維度(兩個用于平移,一個用于旋轉(zhuǎn)),總配置空間為14維,動作空間為17維。 VI.實驗評估 我們的實驗評估包括以下兩個部分: 1.開箱即用評估:通過直接提示比較我們基礎(預訓練)模型與其他模型設計的表現(xiàn)。 2.詳細微調(diào)實驗:評估我們的模型在復雜下游任務上的表現(xiàn),并與其他針對靈巧操作提出的方法進行比較。 我們研究以下關鍵問題: 3.π0在預訓練數(shù)據(jù)中存在的各種任務上表現(xiàn)如何? 4.π0在遵循語言指令方面的表現(xiàn)如何? 5.π0與其他針對靈巧操作任務提出的方法相比表現(xiàn)如何? 6.π0是否可以適應復雜的多階段任務? A.基礎模型評估 在第一組實驗中,我們在完整預訓練數(shù)據(jù)集上訓練模型,但不進行任何后訓練,旨在評估基礎模型在多種任務上的表現(xiàn)。我們將其與文獻中的其他機器人基礎模型進行比較,包括VLA模型和從零開始在相同預訓練組合上訓練的小型模型。以下是評估任務的說明,這些任務通過語言指令傳遞給相同的基礎模型,任務可視化見圖6: · 折疊襯衫:機器人需要將一件平鋪的T恤折疊好。 · 簡單清理:機器人需要清理桌面,將垃圾放入垃圾桶,餐具放入餐具桶。評分依據(jù)正確放置的物體數(shù)量。 · 復雜清理:清理任務的更困難版本,包含更多物體以及更復雜的配置,例如餐具被故意放置在垃圾物體上、物體相互遮擋,以及一些未出現(xiàn)在預訓練數(shù)據(jù)集中的物體。 · 裝袋雜貨:機器人需要將所有雜貨物品(如薯片、棉花糖和貓糧)裝進袋子。 · 取出吐司:機器人從烤面包機中取出吐司。 提供這些實驗的對比是一個挑戰(zhàn),因為很少有現(xiàn)有模型能在這個規(guī)模上運行。我們與以下模型進行了比較: 1.OpenVLA [24]:一個7B參數(shù)的VLA模型,最初在OXE數(shù)據(jù)集[10]上訓練。我們在完整數(shù)據(jù)組合上重新訓練了OpenVLA,但該模型不支持動作塊或高頻控制,難以適應復雜數(shù)據(jù)組合。 2.Octo [50]:一個較小的93M參數(shù)模型。盡管Octo不是VLA模型,但它使用擴散過程生成動作,為我們的流匹配VLA模型提供了一個有價值的對比點。我們也在相同數(shù)據(jù)組合上重新訓練了Octo。 3.π0對比模型:由于時間限制,我們無法以與完整模型相同的訓練輪數(shù)訓練OpenVLA和Octo,因此我們也提供了一個“計算平衡”的π0版本,僅訓練160k步(而完整模型訓練了700k步),這一訓練步數(shù)等于或低于對比模型的訓練步數(shù)(OpenVLA為160k,Octo為320k)。 4.UR5e特定OpenVLA:我們僅在UR5e數(shù)據(jù)上微調(diào)了OpenVLA模型,未進行跨體型訓練,以期為UR5e任務提供更強的基線模型。 π0-small:一個較小版本的π0模型,未使用VLM預訓練。 在我們的一系列實驗中,評估指標采用歸一化得分,任務執(zhí)行成功與部分成功均按比例評分。實驗結(jié)果表明,π0在各種任務中表現(xiàn)優(yōu)異,特別是在折疊襯衫和清理任務上幾乎達到完美成功率,遠超其他基線模型。即便是經(jīng)過較少訓練步數(shù)的π0版本,仍超越了OpenVLA和Octo。相比之下,OpenVLA因自回歸架構(gòu)不支持動作塊表現(xiàn)較差,而Octo雖然支持動作塊,但表示能力有限。我們的實驗強調(diào)了大規(guī)模架構(gòu)和VLM預訓練的重要性,顯示π0在執(zhí)行復雜任務、語言指令及多階段任務時的出色表現(xiàn),證明了其作為強大預訓練模型的潛力。 實驗結(jié)果表明,π0在多任務微調(diào)和復雜任務中的表現(xiàn)優(yōu)異,尤其是在語言指令和多階段任務中。對比不同微調(diào)數(shù)據(jù)量的實驗顯示,π0在任務微調(diào)數(shù)據(jù)少時表現(xiàn)明顯優(yōu)于基線模型,尤其在數(shù)據(jù)微調(diào)1小時的情況下,明顯優(yōu)于所有基線模型。對于復雜的多階段任務,π0通過結(jié)合預訓練和微調(diào)策略,成功解決了折疊衣物、清理桌面、組裝紙箱等高難度任務,表現(xiàn)出卓越的泛化能力。π0在所有任務中表現(xiàn)最佳,尤其在難度較大的任務中,預訓練策略顯著提升了性能,進一步證明了預訓練在處理復雜任務中的重要性。 討論、局限性與未來工作 我們提出的π0框架通過在多樣化數(shù)據(jù)上預訓練并結(jié)合任務微調(diào),展示了在復雜任務中的優(yōu)異表現(xiàn)。預訓練數(shù)據(jù)來自7種機器人配置和68個任務,總計1萬小時的操作數(shù)據(jù),此外,還結(jié)合了OXE、DROID等多個數(shù)據(jù)源。這是迄今為止最大規(guī)模的機器人操作預訓練數(shù)據(jù)。 實驗結(jié)果表明,π0在多項任務中超越了傳統(tǒng)基線模型,尤其在折疊衣物、組裝紙箱等多階段任務中表現(xiàn)出色。預訓練模型具備一定的零樣本能力,但復雜任務仍需通過高質(zhì)量數(shù)據(jù)進行微調(diào)以提升性能。 然而,研究中仍存在若干局限性。首先,預訓練數(shù)據(jù)集的構(gòu)成尚未完全優(yōu)化,未來需探索哪些類型的數(shù)據(jù)更有效,并如何加權(quán)使用。其次,任務表現(xiàn)的不穩(wěn)定性仍是挑戰(zhàn),無法預測哪些數(shù)據(jù)類型能實現(xiàn)最佳結(jié)果。此外,如何充分利用來自不同任務和機器人系統(tǒng)的多樣化數(shù)據(jù),進一步研究遷移效應仍然是未來的關鍵方向。 總的來說,盡管當前成果顯示出機器人基礎模型的巨大潛力,但還有許多問題需解決,未來的工作將致力于進一步提升模型的穩(wěn)定性和泛化能力,推動機器人基礎模型的發(fā)展。 π0的實驗結(jié)果證明,預訓練與微調(diào)的結(jié)合使機器人能夠在多種任務中展現(xiàn)出卓越的表現(xiàn),甚至能夠在未見過的場景中自如應對。隨著對這一框架的進一步研究與優(yōu)化,π0有望成為推動機器人智能化發(fā)展的關鍵技術,助力實現(xiàn)更加靈活和自主的機器人操作。 |
|