小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

視覺語(yǔ)言機(jī)器人的大爆發(fā):從RT2、VoxPoser、RoboFlamingo、OK

 netouch 2024-12-29 發(fā)布于北京

前言

一年多前,OpenAI重塑了聊天機(jī)器人,徹底推動(dòng)大模型技術(shù)的突飛猛進(jìn),一個(gè)月前,OpenAI又重塑了視頻生成,當(dāng)sora的熱度還在持續(xù)時(shí),沒想到OpenAI在機(jī)器人領(lǐng)域也出手了,和Figure聯(lián)合打造的人形機(jī)器人,邊與人類自然流暢對(duì)話、邊干活(給人類蘋果、整理桌面)

如此,現(xiàn)在大模型機(jī)器人的發(fā)展有三個(gè)攻克點(diǎn)

  1. 一個(gè)是模仿學(xué)習(xí),以斯坦福的mobile aloha、UMI為代表
  2. 一個(gè)是預(yù)訓(xùn)練 + RL,以CMU 18萬(wàn)機(jī)器人為代表
  3. 一個(gè)則是視覺語(yǔ)言模型,以VoxPoser、figure 01、CoPa為代表,過(guò)程中有的會(huì)用到模仿學(xué)習(xí)去訓(xùn)練機(jī)器人的動(dòng)作策略

本文則重點(diǎn)介紹第三個(gè)攻克點(diǎn)

第一部分 Google的RT1、PaLM-E、RT-2

由于Google的這些機(jī)器人相關(guān)的工作很重要,故后續(xù)把本部分獨(dú)立成文了,詳見:Google視覺機(jī)器人超級(jí)匯總:從RT、RT-2到AutoRT/SARA-RT/RT-Trajectory、RT-H

第二部分 李飛飛團(tuán)隊(duì):具身智能VoxPoser

2.1 機(jī)器人對(duì)從沒見過(guò)的任務(wù)也能一次執(zhí)行且不需要示范

大模型接入機(jī)器人,把復(fù)雜指令轉(zhuǎn)化成具體行動(dòng)規(guī)劃,無(wú)需額外數(shù)據(jù)和訓(xùn)練,說(shuō)白了,人類可以很隨意地用自然語(yǔ)言給機(jī)器人下達(dá)指令,如:打開上面的抽屜,小心花瓶!

圖片

大語(yǔ)言模型+視覺語(yǔ)言模型就能從3D空間中分析出目標(biāo)和需要繞過(guò)的障礙,幫助機(jī)器人做行動(dòng)規(guī)劃

圖片

然后重點(diǎn)來(lái)了, 真實(shí)世界中的機(jī)器人在未經(jīng)“培訓(xùn)”的情況下,就能直接執(zhí)行這個(gè)任務(wù)。

圖片

新方法實(shí)現(xiàn)了零樣本的日常操作任務(wù)軌跡合成,也就是機(jī)器人從沒見過(guò)的任務(wù)也能一次執(zhí)行,連給他做個(gè)示范都不需要。

可操作的物體也是開放的,不用事先劃定范圍,開瓶子、按開關(guān)、拔充電線都能完成

圖片

2.2 VoxPoser:大模型指導(dǎo)機(jī)器人如何與環(huán)境進(jìn)行交互

2.2.1 3D Value Map:既標(biāo)記了“在哪里行動(dòng)”,也標(biāo)記了“如何行動(dòng)”

機(jī)器人如何直接聽懂人話?李飛飛團(tuán)隊(duì)將該系統(tǒng)命名為VoxPoser,如下圖所示,它的原理非常簡(jiǎn)單(項(xiàng)目地址、論文地址、代碼地址,發(fā)布于23年7月)

  1. 首先,給定環(huán)境信息(用相機(jī)采集RGB-D圖像)和我們要執(zhí)行的自然語(yǔ)言指令
    例如,給定一條指令“打開頂層抽屜并注意花瓶”,LLMs可以被提示推斷做任務(wù)拆解(而這個(gè)拆解很重要啊,拆解的好 機(jī)器人可以更快get):1)應(yīng)該抓住頂層抽屜的把手,2)把手需要向外移動(dòng),3)機(jī)器人應(yīng)該遠(yuǎn)離花瓶

    圖片

  2. 接著,LLM(大語(yǔ)言模型)根據(jù)這些內(nèi)容編寫代碼,所生成代碼與VLM(視覺語(yǔ)言模型)進(jìn)行交互,指導(dǎo)系統(tǒng)生成相應(yīng)的操作指示地圖,即3D Value Map 所謂3D Value Map,它是Affordance Map和Constraint Map的總稱,既標(biāo)記了“在哪里行動(dòng)”,也標(biāo)記了“如何行動(dòng)”
    比如,繼續(xù)接著上面的例子——“打開頂層抽屜并注意花瓶”而言,通過(guò)生成調(diào)用感知API的Python代碼(generating Python code to invoke perception APIs),LLMs可以獲得相關(guān)對(duì)象或部件的空間幾何信息,然后操縱3D體素(3D voxels)以在觀察空間的相關(guān)位置上指定獎(jiǎng)勵(lì)或成本(例如,把手區(qū)域被分配高值,而花瓶周圍被分配低值,即the handle region is assigned high values while the surrounding of the vase is assigned low values)

    圖片

  3. 如此一來(lái),再搬出動(dòng)作規(guī)劃器,將生成的3D地圖作為其目標(biāo)函數(shù),便能夠合成最終要執(zhí)行的操作軌跡了
    而從這個(gè)過(guò)程我們可以看到,相比傳統(tǒng)方法需要進(jìn)行額外的預(yù)訓(xùn)練,這個(gè)方法用大模型指導(dǎo)機(jī)器人如何與環(huán)境進(jìn)行交互,所以直接解決了機(jī)器人訓(xùn)練數(shù)據(jù)稀缺的問(wèn)題
    更進(jìn)一步,正是由于這個(gè)特點(diǎn),它也實(shí)現(xiàn)了零樣本能力,只要掌握了以上基本流程,就能hold任何給定任務(wù)

    相當(dāng)于對(duì)于上面的任務(wù)——“打開頂層抽屜并注意花瓶”,在其最后,組合的價(jià)值地圖可以作為運(yùn)動(dòng)規(guī)劃器的目標(biāo)函數(shù),直接合成實(shí)現(xiàn)給定指令的機(jī)器人軌跡 1,而無(wú)需為“每個(gè)任務(wù)或LLM”額外提供訓(xùn)練數(shù)據(jù)

2.2.2 將指令拆解成很多子任務(wù) + 規(guī)劃路徑

在具體實(shí)現(xiàn)中,作者將VoxPoser的思路轉(zhuǎn)化為一個(gè)優(yōu)化問(wèn)題,即下面這樣一個(gè)復(fù)雜的公式:

\min _{\tau_{i}^{\mathbf{r}}}\left\{\mathcal{F}_{\text {task }}\left(\mathbf{T}_{i}, \ell_{i}\right)+\mathcal{F}_{\text {control }}\left(\tau_{i}^{\mathbf{r}}\right)\right\} \quad \text { subject to } \quad \mathcal{C}\left(\mathbf{T}_{i}\right)

其中

  • \mathbf{r}表示機(jī)器人,\tau_{i}^{\mathbf{r}}表示機(jī)器人對(duì)應(yīng)的運(yùn)動(dòng)軌跡,其中每個(gè)路徑點(diǎn)包括期望的6自由度末端執(zhí)行器姿態(tài)、末端執(zhí)行器速度和夾爪動(dòng)作,\ell_{i}表示第i個(gè)任務(wù)
  • \mathcal{F}_{\text {task }}評(píng)分了T_i 完成指令\ell_{i}的程度,而\mathcal{F}_{\text {control }}指定了控制成本,例如鼓勵(lì)\tau_{i}^{\mathbf{r}}盡量減少總控制力或總時(shí)間
  • \mathcal{C}\left(\mathbf{T}_{i}\right)表示動(dòng)力學(xué)和運(yùn)動(dòng)學(xué)約束,這些約束由機(jī)器人的已知模型和基于物理或基于學(xué)習(xí)的環(huán)境模型來(lái)實(shí)施
    最終,通過(guò)為每個(gè)子任務(wù)\ell_{i}解決這個(gè)優(yōu)化問(wèn)題,得到了一系列機(jī)器人軌跡,共同實(shí)現(xiàn)了指令\mathcal{L} 所指定的整體任務(wù)

它考慮到了人類下達(dá)的指令可能范圍很大,并且需要上下文理解,于是將指令拆解成很多子任務(wù),比如開頭第一個(gè)示例就由“抓住抽屜把手”和“拉開抽屜”組成

VoxPoser要實(shí)現(xiàn)的就是優(yōu)化每一個(gè)子任務(wù),獲得一系列機(jī)器人軌跡,最終最小化總的工作量和工作時(shí)間

而在用LLM和VLM將語(yǔ)言指令映射為3D地圖的過(guò)程中,系統(tǒng)考慮到語(yǔ)言可以傳達(dá)豐富的語(yǔ)義空間,便利用“感興趣的實(shí)體(entity of interest)”來(lái)引導(dǎo)機(jī)器人進(jìn)行操作,也就是通過(guò)3D Value Map中標(biāo)記的值來(lái)反應(yīng)哪個(gè)物體是對(duì)它具有“吸引力”的,那些物體是具有“排斥性”。

圖片

還是以開頭的例子舉例,抽屜就是“吸引”的,花瓶是“排斥”的。

當(dāng)然,這些值如何生成,就靠大語(yǔ)言模型的理解能力了。

而在最后的軌跡合成過(guò)程中,由于語(yǔ)言模型的輸出在整個(gè)任務(wù)中保持不變,所以我們可以通過(guò)緩存其輸出,并使用閉環(huán)視覺反饋重新評(píng)估生成的代碼,從而在遇到干擾時(shí)快速進(jìn)行重新規(guī)劃

因此,VoxPoser有著很強(qiáng)的抗干擾能力,比如下圖將廢紙放進(jìn)藍(lán)色托盤

圖片

最后,作者還驚喜地發(fā)現(xiàn),VoxPoser產(chǎn)生了4個(gè)“涌現(xiàn)能力”

  1. 評(píng)估物理特性,比如給定兩個(gè)質(zhì)量未知的方塊,讓機(jī)器人使用工具進(jìn)行物理實(shí)驗(yàn),確定哪個(gè)塊更重;
  2. 行為常識(shí)推理,比如在擺餐具的任務(wù)中,告訴機(jī)器人“我是左撇子”,它就能通過(guò)上下文理解其含義;
  3. 細(xì)粒度校正,比如執(zhí)行“給茶壺蓋上蓋子”這種精度要求較高的任務(wù)時(shí),我們可以向機(jī)器人發(fā)出“你偏離了1厘米”等精確指令來(lái)校正它的操作;
  4. 基于視覺的多步操作,比如叫機(jī)器人將抽屜精準(zhǔn)地打開成一半,由于沒有對(duì)象模型導(dǎo)致的信息不足可能讓機(jī)器人無(wú)法執(zhí)行這樣的任務(wù),但VoxPoser可以根據(jù)視覺反饋提出多步操作策略,即首先完全打開抽屜同時(shí)記錄手柄位移,然后將其推回至中點(diǎn)就可以滿足要求了

第三部分 RoboFlamingo:首個(gè)開源的VLM機(jī)器人操作大模型

近年來(lái),大模型的研究正在加速推進(jìn),它逐漸在各類任務(wù)上展現(xiàn)出多模態(tài)的理解和時(shí)間空間上的推理能力。機(jī)器人的各類具身操作任務(wù)天然就對(duì)語(yǔ)言指令理解、場(chǎng)景感知和時(shí)空規(guī)劃等能力有著很高的要求,這自然引申出一個(gè)問(wèn)題:能不能充分利用大模型能力,將其遷移到機(jī)器人領(lǐng)域,直接規(guī)劃底層動(dòng)作序列呢?

23年Google發(fā)布的一項(xiàng)頗有影響力的工作即Robotics Transformer 2(RT-2),已經(jīng)展示了一種使vlm適應(yīng)低級(jí)機(jī)器人控制的可能解決方案,然而其需要對(duì)廣泛的視覺-語(yǔ)言數(shù)據(jù)進(jìn)行聯(lián)合微調(diào),以充分展示其有效性

因此,機(jī)器人領(lǐng)域迫切需要一種低成本的替代解決方案,有效地啟用具有vlm的機(jī)器人操作策略

對(duì)此,ByteDance Research 基于開源的多模態(tài)語(yǔ)言視覺大模型 OpenFlamingo 開發(fā)了開源、易用的 RoboFlamingo 機(jī)器人操作模型,只用單機(jī)就可以訓(xùn)練。使用簡(jiǎn)單、少量的微調(diào)就可以把 VLM 變成 Robotics VLM,從而適用于語(yǔ)言交互的機(jī)器人操作任務(wù)

OpenFlamingo 在機(jī)器人操作數(shù)據(jù)集 CALVIN 上進(jìn)行了驗(yàn)證,實(shí)驗(yàn)結(jié)果表明,RoboFlamingo 只利用了 1% 的帶語(yǔ)言標(biāo)注的數(shù)據(jù)即在一系列機(jī)器人操作任務(wù)上取得了 SOTA 的性能。隨著 RT-X 數(shù)據(jù)集開放,采用開源數(shù)據(jù)預(yù)訓(xùn)練 RoboFlamingo 并 finetune 到不同機(jī)器人平臺(tái),將有希望成為一個(gè)簡(jiǎn)單有效的機(jī)器人大模型 pipeline

3.1 之前的相關(guān)工作

這是此前的一些工作,主要有以下三大類

  1. 微調(diào)
    盡管Jang等人(2022)和Lynch & Sermanet(2020)等早期研究已經(jīng)訓(xùn)練了一個(gè)視覺編碼器和一個(gè)語(yǔ)言編碼器,以學(xué)習(xí)操縱任務(wù)中輸入語(yǔ)言和視覺數(shù)據(jù)的表示,但最近的一些工作直接采用預(yù)訓(xùn)練模型來(lái)獲取優(yōu)質(zhì)表示,并從頭開始訓(xùn)練策略模型或微調(diào)整個(gè)模型(some recent work directly takes pre-trained models to obtain great representations, then trains the policy model beyond them from scratch or fine-tuning the whole model)

    例如,Jiang等人采用預(yù)訓(xùn)練的T5模型對(duì)多模態(tài)提示進(jìn)行編碼,并通過(guò)微調(diào)T5模型以及額外訓(xùn)練對(duì)象編碼器和注意力層來(lái)學(xué)習(xí)動(dòng)作
    For instance, Jiang et al. (2023) utilizes a pre-trained T5 (Raffel et al., 2020) model to encodethe multi-modal prompts, and learn the actions by fine-tuning the T5 model and additionally trainingan object encoder and attention layers

    此外,還有上文提到過(guò)的RT-1 (即Robotics Transformer),作為一個(gè)35M的視覺-語(yǔ)言-動(dòng)作模型(VLA),其通過(guò)將動(dòng)作標(biāo)記化并在標(biāo)記空間中對(duì)齊視覺、語(yǔ)言和動(dòng)作,且在大量真實(shí)世界操縱數(shù)據(jù)集上進(jìn)行訓(xùn)練「Besides, Brohan et al. (2022) proposedRT-1, i.e., robotics transformers, a 35M vision-language-action model (VLA) which tokenizes the action and aligns the vision, language, and action in the token space and is trained on a large amount of real-world manipulation dataset 
    它使用Universal Sentence編碼器(Cer等人,2018)獲取語(yǔ)言嵌入,并采用預(yù)訓(xùn)練的EfficientNet-B3(Tan & Le,2019)作為視覺標(biāo)記器「using the Universal Sentence Encoder (Cer et al., 2018) to obtain the language embedding and the pre-trained EfficientNet-B3 (Tan & Le, 2019) as the vision tokenizer.
  2. LLM規(guī)劃
    一些方法已經(jīng)利用大型語(yǔ)言模型(LLMs)作為強(qiáng)大的零樣本計(jì)劃器,例如SayCan Ahn等人(2022),以生成預(yù)定義的分步計(jì)劃,并在給定任務(wù)上提供人工交互提示,隨后指示不同的預(yù)訓(xùn)練低級(jí)策略來(lái)執(zhí)行這些計(jì)劃并完成多個(gè)任務(wù)
    Some approaches have exploited large language models (LLMs) as a powerful zero-shot planner, e.g., SayCan Ahn et al. (2022), to generate step-by-step pre-defined plans with human-interactive prompts on given tasks, subsequently instructing different pre-trained low-levelskill policies to execute those plans and finish multiple tasks.

    與其他研究相比,控制策略無(wú)需理解指令能力,而是依賴預(yù)訓(xùn)練凍結(jié)LLM來(lái)選擇必要技能
    Compared to other works, the controllingpolicies do not require any ability to understand instructions, but rely on the pre-trained frozen LLMto select necessary skills.
  3. 協(xié)同精調(diào)Co-Fine-Tuning
    Dries等人提出了540B PaLM-E模型,展示了一種不同的利用預(yù)訓(xùn)練視覺和語(yǔ)言模型的方法(Driess et al. (2023) proposed 540B PaLM-E model, showing a different way ofutilizing the pre-trained vision and language model)

    具體而言,如下三點(diǎn)
    \rightarrow  他們選擇了不同的預(yù)訓(xùn)練模型來(lái)編碼輸入場(chǎng)景,并將PaLM作為基礎(chǔ)模型(they choose different pre-trained models to encoder the input scene, and the PaLM (Chowdhery et al., 2022) model as the base model)
    \rightarrow  通過(guò)使用移動(dòng)操作問(wèn)答數(shù)據(jù)以及從Web收集的圖像標(biāo)題和視覺問(wèn)答數(shù)據(jù)等輔助視覺語(yǔ)言訓(xùn)練數(shù)據(jù)(using both mobile manipulation question-answering data and auxiliary vision-language training data such as image captioning and visual question answering data collected from the web)
    \rightarrow  他們通過(guò)端到端協(xié)同微調(diào)整個(gè)VLM來(lái)訓(xùn)練模型生成由語(yǔ)言描述的預(yù)定義多步計(jì)劃(train the model to generate pre-defined multi-step plans described by language by co-fine-tuning the whole VLM end-to-end)
    與SayCan類似,他們需要低級(jí)控制策略來(lái)執(zhí)行生成的計(jì)劃(Similar to SayCan (Ahn et al., 2022), they require low-level control policies to executethe generated plans)

    然,他們的方法揭示了VLMs在適應(yīng)機(jī)器人操作方面具有潛力,但是他們關(guān)鍵性的協(xié)同微調(diào)訓(xùn)練策略需要大量規(guī)?;疻eb數(shù)據(jù)、視覺語(yǔ)言數(shù)據(jù)和低級(jí)機(jī)器人動(dòng)作。此外,VLMs及其所使用的數(shù)據(jù)是私有化的,這使得每位機(jī)器人從業(yè)者難以實(shí)施這樣的解決方案
    Their method reveals that VLMs have the potential to be adapted into robot manipulation, yet their key co-fine-tuning training strategy requires a large amount of both web-scale data vision-languagedata and low-level robot actions. Additionally, the VLMs and the data they use are private, making ithard for every robotics practitioner to play on such a solution for their own

總之,盡管之前的模型在一定程度上彌合了機(jī)器人操作任務(wù)中視覺和語(yǔ)言之間的差距,但它們要么專注于低級(jí)技能策略(如SayCan和PaLM-E),要么訓(xùn)練一個(gè)龐大的整體模型(如RT-1),或者需要大量視覺語(yǔ)言數(shù)據(jù)和計(jì)算資源來(lái)確保學(xué)習(xí)操作策略時(shí)不會(huì)忽視視覺與語(yǔ)言之間重要的對(duì)齊關(guān)系

相比這些工作,RoboFlamingo是一個(gè)簡(jiǎn)單而直觀的解決方案,可以輕松適應(yīng)現(xiàn)有VLM(本文使用OpenFlamingo)并只需微調(diào)少量操作演示
RoboFlamingo is a simple andintuitive solution to easily adapt existing VLMs (OpenFlamingo (Alayrac et al., 2022; Awadallaet al., 2023) used in this paper), only requiring fine-tuning on a small number of manipulation demonstrations

3.2 RoboFlamingo Vision Encoder + Feature Fusion Decoder + Policy Head

具體而言,RoboFlamingo利用已有的基于圖像 - 文本對(duì)的視覺語(yǔ)言基礎(chǔ)模型,通過(guò)訓(xùn)練端到端的方式生成機(jī)器人每一步的 relative action

模型的主要模塊包含了 vision encoder,feature fusion decoder 和 policy head 三個(gè)模塊,以下是這三個(gè)模塊分別要做的事

  1. Vision encoder 模塊先將當(dāng)前視覺觀測(cè)輸入到 ViT 中,并通過(guò) resampler 對(duì) ViT 輸出的 token 進(jìn)行 down sample
  2. Feature fusion decoder 將 text token 作為query
    \rightarrow  并在每個(gè) layer 中先將 vision encoder 的 output 作為 key和value 進(jìn)行 cross attention

    注意,在交叉注意力中,什么做Q,什么做K V確實(shí)容易混淆,有的新聞稿便會(huì)弄錯(cuò),怎么防止搞錯(cuò)呢?
    i)  可以簡(jiǎn)單粗暴的把Q定義為主人,K V定義為客人,主人一般邀請(qǐng)客人到家交流,而在我們面對(duì)Feature fusion decoder時(shí),它里面的text token當(dāng)然就是主人,故自然作為query,然后把vision encoder 的 output 拿過(guò)來(lái)做cross attention,而拿過(guò)來(lái)的output自然便作為客人邀請(qǐng)過(guò)來(lái)了,故而是key和value
    ii) 其實(shí)包括transformer中decoder的第二個(gè)注意力層便也有類似之意(詳見此篇
    transformer通俗筆記)

    \rightarrow  之后進(jìn)行 self attention 以完成視覺與語(yǔ)言特征的融合
  3. 最后,對(duì) feature fusion decoder 進(jìn)行 max pooling 后將其送入 policy head
    policy head 根據(jù) feature fusion decoder 輸出的當(dāng)前和歷史 token 序列直接輸出當(dāng)前的 7 DoF relative action(包括6-dim 的機(jī)械臂末端位姿和 1-dim 的 gripper open/close)

在訓(xùn)練過(guò)程中,RoboFlamingo 利用預(yù)訓(xùn)練的 ViT、LLM 和 Cross Attention 參數(shù),并只微調(diào) resampler、cross attention 和 policy head 的參數(shù)

模仿學(xué)習(xí)「Imitation learning (Pomerleau, 1988; Zhang et al., 2018; Liu et al., 2020; Jang et al., 2022) 」,允許智能體通過(guò)從指令標(biāo)記的專家游戲數(shù)據(jù)\mathcal{D}=\left\{(\tau, l)_{i}\right\}_{i=0}^{D}中進(jìn)行模仿來(lái)學(xué)習(xí)

  1. 其中D表示軌跡數(shù)量,l表示語(yǔ)言指令,\tau = \left\{\left(o_{t}, a_{t}\right)\right\}包含在達(dá)到給定指令描述的目標(biāo)之前所采取的狀態(tài)和動(dòng)作
  2. 學(xué)習(xí)目標(biāo)可以簡(jiǎn)單地歸結(jié)為最大化似然條件下策略\pi_{\theta}的模仿目標(biāo)(The learning objective can be simply concluded as a maximum likelihood goal-conditioned imitation objective to learn the policy πθ)
    \ell=\mathbb{E}_{(\tau, l)_{i} \sim \mathcal{D}}\left[\sum_{t=0}^{|\tau|} \log \pi_{\theta}\left(a_{t} \mid o_{t}, l\right)\right]

3.2.1 視覺編碼器Vision Encoder(ViT + 重采樣器Resampler):得到視覺特征\hat{X}_{t}

視覺編碼器由ViT重采樣器Resampler構(gòu)成

  • 首先,在每個(gè)時(shí)間步長(zhǎng)t,通過(guò)ViT模塊對(duì)雙視圖相機(jī)圖像I_{t}、G_{t}編碼為由visual token sequence組成的\hat{X}_{t}(The vision encoder consists of a vision transformer (ViT) (Yuan et al., 2021) and a perceiver resampler (Alayrac et al., 2022). At every time step t, the two-view camera images It, Gt are encoded to X?t, consisting of a visual token sequence, through the ViT module):
    \hat{X}_{t}^{v}=\operatorname{ViT}\left(I_{t}, G_{t}\right)
    其中\hat{X}_{t}^{v}=\left(\hat{x}_{t 1}^{v}, \cdots, \hat{x}_{t N}^{v}\right)表示t處的視覺token序列,N表示編碼后輸出的token編號(hào)
  • 其次,在編碼之后,RoboFlamingo利用感知器重采樣器Resampler 將視覺tokens的數(shù)量從N壓縮到K。換句話說(shuō),Resampler通過(guò)維護(hù)一組可學(xué)習(xí)的參數(shù),并運(yùn)用注意力機(jī)制將token序列的數(shù)量減少至k(the resampler maintains a set of learnable parameters and utilizes the attention mechanism to reduce the number of token sequences to K)

形式上,Resampler的公式如下:

K_{R}=\hat{X}_{t}^{v} W_{K}^{R}

\quad V_{R}=\hat{X}_{t}^{v} W_{V}^{R}

X_{t}^{v}=\operatorname{softmax}\left(\frac{Q_{R} K_{R}^{T}}{\sqrtopkdopnojk}\right) V_{R}

其中

  • Q_{R} \in \mathbb{R}^{K \times d},作為Resampler可學(xué)習(xí)參數(shù)的查詢向量
  • d表示隱藏維度大小
  • W_{K}^{R}, W_{V}^{R} \in \mathbb{R}^{d_{v} \times d},表示鍵和值的線性變換矩陣
  • d_v為視覺token特征維度
  • K_RV_R是經(jīng)過(guò)變換后的視覺輸入V的鍵和值向量

3.2.2 特征融合解碼器Feature Fusion Decoder

重采樣器X_{t}^{v} \in \mathbb{R}^{K \times d}輸出的壓縮視覺tokens進(jìn)一步傳遞至特征融合解碼器,該解碼器旨在通過(guò)將“語(yǔ)言指令”與“編碼的視覺特征X_{t}^{v}”融合,以生成視覺-語(yǔ)言聯(lián)合嵌入(The compressed visual tokens output from the resampler Xtv ∈ RK×d are further passed to the feature fusion decoder, which is designed to generate the vision-language joint embedding by fusing the language instruction with the encoded vision feature Xtv)

在RoboFlamingo中,我們利用OpenFlamingo的預(yù)訓(xùn)練解碼器,并按照Awadalla等人的方式對(duì)解碼器模塊進(jìn)行微調(diào),具體來(lái)說(shuō),解碼器有L層,每一層都涉及一個(gè)transformer解碼器層和一個(gè)交叉注意力層(each of which involves a transformer decoder layer and a cross-attention layer)

  • transformer層直接從預(yù)訓(xùn)練的語(yǔ)言模型(如LlaMA (Touvron et al., 2023)、GPT-Neox (Black et al., 2022)和MPT (Team et al., 2023))中復(fù)制而來(lái),并在整個(gè)訓(xùn)練過(guò)程中被凍結(jié)
    The transformer layers are directly copied from a pre-trained language model (such as LlaMA (Touvron et al., 2023), GPT-Neox (Black et al., 2022) and MPT (Team et al., 2023)) and are frozen during the whole training process
  • 交叉注意力層將語(yǔ)言token作為query,將編碼后的視覺token作為key和value,通過(guò)在操縱數(shù)據(jù)上的模仿學(xué)習(xí)目標(biāo)進(jìn)行微調(diào)
    the cross-attention layer takes the language token as query, and the encoded visual token as key and value, which is fine-tuned by imitation learning objectives on manipulation data (see following sub-sections)

形式上,如果我們將x_{i} \in \mathbb{R}^opkdopnojk表示為指令的第i -th個(gè)嵌入token(we denote xi ∈ Rd the i?th embedded token of the instruction),M表示為指令長(zhǎng)度,X \in \mathbb{R}^{M \times d}表示為指令的嵌入矩陣(X ∈ RM×d is the embedded matrix of the instruction)

那么嵌入的自然語(yǔ)言指令應(yīng)該為X=\left(x_{1}, x_{2}, \cdots, x_{M}\right),并且給定輸入X_{t}^{l}時(shí),可以計(jì)算出第l個(gè)解碼器層的輸出X_{t}^{l+1}(then the embedded natural language instruction should be X = (x1, x2, · · · , xM) and output Xtl+1 of the l-th decoder layer given the input Xtl is computed by)

\begin{array}{l} \hat{X}_{t}^{l}=\operatorname{Tanh}(\alpha) \cdot \operatorname{MLP}\left(A\left(X_{t}^{l} W_{Q}^{C}, X_{t}^{v} W_{K}^{C}, X_{t}^{v} W_{V}^{C}\right)\right)+X_{t}^{l} \\ X_{t}^{l+1}=\operatorname{MLP}\left(A\left(\hat{X}_{t}^{l} W_{Q}^{S}, \hat{X}_{t}^{l} W_{K}^{S}, \hat{X}_{t}^{l} W_{V}^{S}\right)\right)+\hat{X}_{t}^{l} \end{array}

其中

  • X_{t}^{1}=X,\hat{X}_{t}^{l}對(duì)應(yīng)于時(shí)間t時(shí)刻門控交叉注意力層的輸出(?Xl t corresponds to the output of the gated cross-attention layer at time instant t)
  • W_{Q}^{C}, W_{K}^{C}, W_{V}^{C} \in \mathbb{R}^{d \times d}表示交叉注意力層(cross-attention layer)的可學(xué)習(xí)參數(shù)
  • \alpha \in \mathbb{R}是一個(gè)可學(xué)習(xí)的門控參數(shù),用于調(diào)節(jié)穩(wěn)定性的混合權(quán)重(α ∈ R is a learnable gate parameter to control the mixing weights for stability)
  • W_{Q}^{S}, W_{K}^{S}, W_{V}^{S} \in \mathbb{R}^{d \times d}表示自注意力層的參數(shù)
  • MLP代表多層感知器網(wǎng)絡(luò)

通過(guò)視覺和語(yǔ)言token之間的深度互動(dòng),我們期望得到輸出X_{t}^{L}=\left\{x_{t, 1}^{L}, x_{t, 2}^{L}, \cdots, x_{t, M}^{L}\right\}的機(jī)器人操作(With the deep interaction of the vision and language token, we expect the output Xt = Xt L = {x L t,1 , xL robot manipulation)

3.2.3 policy head

特征融合解碼器的輸出X_{t}^{L}被訓(xùn)練為視覺觀察和語(yǔ)言指令的表示(The output Xt L from the feature fusion decoder is trained as the representation of the vision observation and language instruction),這些表示將進(jìn)一步翻譯成低級(jí)控制信號(hào)(which will be further translated into low-level control signals)

為了實(shí)現(xiàn)這一目標(biāo),我們采用一個(gè)額外的策略頭p_{\theta}來(lái)預(yù)測(cè)動(dòng)作,例如7自由度末端執(zhí)行器姿態(tài)和夾持器狀態(tài)(the 7 DoF end-effector pose and gripper status),且嘗試了多種策略來(lái)模擬歷史觀測(cè)序列,并將其作為策略頭進(jìn)行使用

  • 比如長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)(Hochreiter & Schmidhuber, 1997),帶有一個(gè)MLP用于最終預(yù)測(cè)
  • 類似的僅解碼器變換器(Brown et al., 2020)也被測(cè)試過(guò),其中包含一個(gè)MLP
  • 或者只對(duì)單步信息進(jìn)行建模的單個(gè)MLP

以LSTM版本為例,在視覺-語(yǔ)言聯(lián)合嵌入序列X_{t}^{L}(with the vision-language joint embedding sequence Xt L)上通過(guò)在token dimension上進(jìn)行最大池操作得到聚合嵌入(aggregated embedding),并預(yù)測(cè)動(dòng)作

{X}_{t}=\operatorname{MaxPooling}\left(X_{t}\right)

h_{t}=\operatorname{LSTM}\left(\tilde{X}_{t}, h_{t-1}\right)

a_{t}^{\text {pose }}, a_{t}^{\text {gripper }}=\operatorname{MLP}\left(h_{t}\right)

其中h_{t}表示t處的隱藏狀態(tài),a_{t}^{\text {pose }}a_{t}^{g r i p p e r}是預(yù)測(cè)的末端執(zhí)行器姿態(tài)和夾持器狀態(tài)

最終,我們利用最大似然模仿學(xué)習(xí)目標(biāo)來(lái)微調(diào)所提出的pre-trained backbone和policy head


具體來(lái)說(shuō),期望的相對(duì)姿態(tài)通過(guò)回歸損失(可使用均方誤差MSE損失)進(jìn)行優(yōu)化,而抓手狀態(tài)使用分類損失(可使用二進(jìn)制交叉熵BCE損失):

\ell=\sum_{t} \operatorname{MSE}\left(a_{t}^{\text {pose }}, \hat{a}_{t}^{\text {pose }}\right)+\lambda_{\text {gripper }} \operatorname{BCE}\left(a_{t}^{\text {gripper }}, \hat{a}_{t}^{\text {gripper }}\right)

其中

  • \hat{a}_{t}^{\text {pose }}、\hat{a}_{t}^{g r i p p e r}是時(shí)間步長(zhǎng)t時(shí)末端執(zhí)行器姿態(tài)和抓取器狀態(tài)的演示
  • \lambda_{g r i p p e r}對(duì)應(yīng)于抓取器損失的權(quán)重(λgripper corresponds to the weight of gripper loss)

在訓(xùn)練過(guò)程中,我們遵循OpenFlamingo的微調(diào)范例,只訓(xùn)練重采樣器Resampler的參數(shù),每個(gè)解碼器層的gated cross-attention module和policy head,而凍結(jié)所有其他參數(shù)(In the training procedure, we follow the fine-tuning paradigm of OpenFlamingo by only training the parameters of the resampler, the gated cross-attention module of each decoder layer, and the policy head while freezing all other parameters)

3.3 實(shí)驗(yàn)結(jié)果

3.3.1 基準(zhǔn)和基線

數(shù)據(jù)集:

圖片

CALVIN(Composing Actions from Language and Vision)是一個(gè)開源的模擬基準(zhǔn)測(cè)試,用于學(xué)習(xí)基于語(yǔ)言的 long-horizon 操作任務(wù)

  1. 與現(xiàn)有的視覺 - 語(yǔ)言任務(wù)數(shù)據(jù)集相比,CALVIN 的任務(wù)在序列長(zhǎng)度、動(dòng)作空間和語(yǔ)言上都更為復(fù)雜,并支持靈活地指定傳感器輸入
  2. CALVIN 分為 ABCD 四個(gè) split,每個(gè) split 對(duì)應(yīng)了不同的 context 和 layout

定量分析:

RoboFlamingo 在各設(shè)置和指標(biāo)上的性能均為最佳,說(shuō)明了其具有很強(qiáng)的模仿能力、視覺泛化能力以及語(yǔ)言泛化能力

  • Full 和 Lang 表示模型是否使用未配對(duì)的視覺數(shù)據(jù)進(jìn)行訓(xùn)練(即沒有語(yǔ)言配對(duì)的視覺數(shù)據(jù))
  • Freeze-emb 指的是凍結(jié)融合解碼器的嵌入層
  • Enriched 表示使用 GPT-4 增強(qiáng)的指令

3.3.2 不同的 policy head

消融實(shí)驗(yàn):

實(shí)驗(yàn)考察了四種不同的策略頭部:MLP w/o hist、MLP w hist、GPT 和 LSTM,其中

  • MLP w/o hist 直接根據(jù)當(dāng)前觀測(cè)預(yù)測(cè)歷史(MLP w/o hist takes only the current observation as input topredict actions, which ignores the observation history),其性能最差
  • MLP w hist 將歷史觀測(cè)在 vision encoder 端進(jìn)行融合后預(yù)測(cè) action(MLP w hist takes the history frames into the vision encoder with position embedding, and encodes the history information through the cross-attention layers in the feature fusion decoder),性能有所提升
  • GPT 和 LSTM 在 policy head 處分別顯式、隱式地維護(hù)歷史信息
    (c) GPT and (d) LSTM both utilize the VLM backbone to process single-frame observation and integrate the history with the policy head.
    GPT explicitly takes the visual history as input to predict the next action
    LSTM implicitly maintainsa hidden s
    tate to encode memory and predict the action
    其表現(xiàn)最好,說(shuō)明了通過(guò) policy head 進(jìn)行歷史信息融合的有效性

    且由于GPT和LSTM的性能相似,故選擇LSTM作為默認(rèn)選擇,畢竟其實(shí)現(xiàn)相對(duì)更簡(jiǎn)單

3.3.3 預(yù)訓(xùn)練、模型大小、指令微調(diào)對(duì)機(jī)器人的影響

  • 視覺-語(yǔ)言預(yù)訓(xùn)練的影響
    預(yù)訓(xùn)練對(duì)于 RoboFlamingo 的性能提升起到了關(guān)鍵作用。實(shí)驗(yàn)顯示,通過(guò)預(yù)先在大型視覺-語(yǔ)言數(shù)據(jù)集上進(jìn)行訓(xùn)練。RoboFlamingo 在機(jī)器人任務(wù)中表現(xiàn)得更好
  • 模型大小與性能
    雖然通常更大的模型會(huì)帶來(lái)更好的性能,但實(shí)驗(yàn)結(jié)果表明,即使是較小的模型,也能在某些任務(wù)上與大型模型媲美
  • 指令微調(diào)的影響
    指令微調(diào)是一個(gè)強(qiáng)大的技巧,實(shí)驗(yàn)結(jié)果表明,它可以進(jìn)一步提高模型的性能

圖片圖片圖片

圖片圖片圖片

3.3.4 定性結(jié)果

相較于基線方法,RoboFlamingo 不但完整執(zhí)行了 5 個(gè)連續(xù)的子任務(wù),且對(duì)于基線頁(yè)執(zhí)行成功的前兩個(gè)子任務(wù),RoboFlamingo 所用的步數(shù)也明顯更少

以下是RoboFlamingo的一些重要參考文獻(xiàn)

  1. Brohan, Anthony, et al. 'Rt-1: Robotics transformer for real-world control at scale.' arXiv preprint arXiv:2212.06817 (2022).
  2. Brohan, Anthony, et al. 'Rt-2: Vision-language-action models transfer web knowledge to robotic control.' arXiv preprint arXiv:2307.15818 (2023).
  3. Mees, Oier, Lukas Hermann, and Wolfram Burgard. 'What matters in language conditioned robotic imitation learning over unstructured data.' IEEE Robotics and Automation Letters 7.4 (2022): 11205-11212.
  4. Alayrac, Jean-Baptiste, et al. 'Flamingo: a visual language model for few-shot learning.' Advances in Neural Information Processing Systems 35 (2022): 23716-23736.
  5. Mees, Oier, et al. 'Calvin: A benchmark for language-conditioned policy learning for long-horizon robot manipulation tasks.' IEEE Robotics and Automation Letters 7.3 (2022): 7327-7334.
  6. Padalkar, Abhishek, et al. 'Open x-embodiment: Robotic learning datasets and rt-x models.' arXiv preprint arXiv:2310.08864 (2023).
  7. Brown, Tom, et al. 'Language models are few-shot learners.' Advances in neural information processing systems 33 (2020): 1877-1901.
  8. Awadalla, Anas, et al. 'Openflamingo: An open-source framework for training large autoregressive vision-language models.' arXiv preprint arXiv:2308.01390 (2023).
  9. Driess, Danny, et al. 'Palm-e: An embodied multimodal language model.' arXiv preprint arXiv:2303.03378 (2023).
  10. Jiang, Yunfan, et al. 'VIMA: General Robot Manipulation with Multimodal Prompts.' NeurIPS 2022 Foundation Models for Decision Making Workshop. 2022.
  11. Mees, Oier, Jessica Borja-Diaz, and Wolfram Burgard. 'Grounding language with visual affordances over unstructured data.' 2023 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2023.
  12. Tan, Mingxing, and Quoc Le. 'Efficientnet: Rethinking model scaling for convolutional neural networks.' International conference on machine learning. PMLR, 2019.
  13. Zhang, Tianhao, et al. 'Deep imitation learning for complex manipulation tasks from virtual reality teleoperation.' 2018 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2018.

第四部分 紐約大學(xué)和Meta:OK-Robot

4.1 OK-Robot:What Really Matters in Integrating Open-KnowledgeModels for Robotics

最近,紐約大學(xué)、Meta 研發(fā)出的一款機(jī)器人學(xué)會(huì)了這個(gè)技能。你只需要對(duì)它說(shuō),「把桌子上的玉米片拿到床頭柜上」,它就能自己找到玉米片,并規(guī)劃出路線和相應(yīng)的動(dòng)作,順利完成任務(wù)。此外,它還能幫你整理東西或扔垃圾

這個(gè)機(jī)器人名叫 OK-Robot,由來(lái)自紐約大學(xué)、Meta 的研究者共同構(gòu)建。他們將視覺語(yǔ)言模型(用于物體檢測(cè))、導(dǎo)航和抓取的基礎(chǔ)模塊整合到一個(gè)開放知識(shí)型框架中,為機(jī)器人的高效拾放操作提供了解決方案

OK-Robot 定位中的「開放知識(shí)」指的是在大型公開數(shù)據(jù)集上訓(xùn)練的學(xué)習(xí)模型

  1. 當(dāng) OK-Robot 被放置在一個(gè)新的家庭環(huán)境中時(shí),它將從 iPhone 上獲取掃描結(jié)果。根據(jù)掃描結(jié)果,它會(huì)使用 LangSam(Language Segment-Anything) 和 CLIP 計(jì)算出密集的視覺語(yǔ)言表征,并將其存儲(chǔ)在語(yǔ)義存儲(chǔ)器中
    OK-Robot is seeded with a scan taken from an iPhone. Given this scan, dense vision-language representationsare computed using LangSam [24] and CLIP [9] and storedin a semantic memory
  2. 在此之后,給定一個(gè)需要拾取的對(duì)象的語(yǔ)言查詢,查詢的語(yǔ)言表征與語(yǔ)義記憶相匹配
    Then, given a language-query for an object that has to be picked, language representations of the query is matched with semantic memory
  3. 接下來(lái),它會(huì)依次應(yīng)用導(dǎo)航和拾取模塊,移動(dòng)到所需物體并將其拾取。類似的過(guò)程也可用于丟棄物體
    After this, navigationand picking primitives are applied sequentially to move to the desired object and pick it up. A similar process can be carriedout for dropping the object

為了研究 OK-Robot,研究者在 10 個(gè)真實(shí)的家庭環(huán)境中對(duì)其進(jìn)行了測(cè)試

header_video_ultra_ultra_com..

通過(guò)實(shí)驗(yàn),他們發(fā)現(xiàn),在一個(gè)從未見過(guò)的自然家居環(huán)境中,該系統(tǒng)零樣本部署的成功率平均為 58.5%。然而,這一成功率在很大程度上取決于環(huán)境的「自然程度」。因?yàn)樗麄儼l(fā)現(xiàn),通過(guò)改進(jìn)查詢、整理空間和排除明顯具有對(duì)抗性的物體(太大、太半透明、太滑),這一成功率達(dá)到了約 82.4%

總之,通過(guò)實(shí)驗(yàn),他們得出了以下結(jié)論:

  1. 預(yù)訓(xùn)練的視覺語(yǔ)言模型對(duì)開放詞匯導(dǎo)航非常有效:目前的open-vocabulary vision-language模型 —— 如 CLIP 或 OWL-ViT(Vision Transformer for Open-World Localization,by Google Research 2022)—— 在識(shí)別真實(shí)世界中的任意物體方面表現(xiàn)出色,并能以零樣本的方式導(dǎo)航、找到這些物體
    Pre-trained VLMs are highly effective for open-vocabulary navigation: Current open-vocabulary vision-language models such as CLIP [9] or OWL-ViT [Simple Open-Vocabulary Object Detection with Vision Transformers,和DETR有點(diǎn)點(diǎn)類似,兩階段訓(xùn)練方式:1. Contrastively pre-train image and text encoders on large-scale image-text data,2. Add detection heads and fine-tune on medium-sized detection data ]

    offer strong performance in identifing arbitrary objects in the realworld, and enable navigating to them in a zero-shot manner
  2. 預(yù)訓(xùn)練的抓取模型可直接應(yīng)用于移動(dòng)操控:與 VLM 類似,根據(jù)大量數(shù)據(jù)預(yù)訓(xùn)練的專用機(jī)器人模型可以直接應(yīng)用于家庭中的開放詞匯抓取。這些機(jī)器人模型不需要任何額外的訓(xùn)練或微調(diào)
  3. 如何組合組件至關(guān)重要: 研究者發(fā)現(xiàn),在預(yù)先訓(xùn)練好模型的情況下,可以使用一個(gè)簡(jiǎn)單的狀態(tài)機(jī)模型(state-machine model)將它們組合起來(lái),而無(wú)需進(jìn)行任何訓(xùn)練。他們還發(fā)現(xiàn),使用啟發(fā)式方法來(lái)抵消機(jī)器人的物理限制,可以在真實(shí)世界中獲得更高的成功率
  4. 目前仍存在一些挑戰(zhàn):考慮到在任意家庭中進(jìn)行零樣本操作的巨大挑戰(zhàn),OK-Robot 在先前工作的基礎(chǔ)上進(jìn)行了改進(jìn):通過(guò)分析失敗模式,他們發(fā)現(xiàn)在視覺語(yǔ)言模型、機(jī)器人模型和機(jī)器人形態(tài)學(xué)方面可以進(jìn)行重大改進(jìn),這將直接提高開放知識(shí)操縱智能體的性能

4.2 技術(shù)組成和方法

該研究主要解決這個(gè)問(wèn)題:從 B 上拿起 A 并將其放在 C 上,其中 A 是一個(gè)物體,B 和 C 是現(xiàn)實(shí)世界環(huán)境中的某個(gè)地方。要實(shí)現(xiàn)這一點(diǎn),所提系統(tǒng)需要包含以下模塊:

  • 開放詞匯對(duì)象導(dǎo)航模塊
  • 開放詞匯 RGB-D 抓取模塊
  • 釋放或放置對(duì)象的啟發(fā)式模塊(dropping heuristic)

4.2.1 開放詞匯物體導(dǎo)航(open-vocabulary object navigation):掃描、構(gòu)圖、檢測(cè)、存儲(chǔ)、查詢、尋路

  1. 首先是掃描房間
    開放詞匯對(duì)象導(dǎo)航遵循了 CLIP-Fields 的方法,并假設(shè)有一個(gè)預(yù)先映射階段,即使用 iPhone 手動(dòng)掃描家庭環(huán)境
    Scanning the home: For open vocabulary object navigation,we follow the approach from CLIP-Fields [27] and assumea pre-mapping phase where the home is “scanned” manually using an iPhone. 
    這種手動(dòng)掃描只是用 iPhone 上的 Record3D 應(yīng)用程序拍攝家庭視頻,這將產(chǎn)生一系列帶位置的 RGB-D 圖像
    This manual scan simply consists of taking a video of the home using the Record3D app on the iPhone,which results in a sequence of posed RGB-D images.
  2. 地圖構(gòu)建
    掃描每個(gè)房間的時(shí)間不到一分鐘,一旦信息收集完畢,RGB-D 圖像以及相機(jī)的姿態(tài)和位置就被導(dǎo)出到項(xiàng)目庫(kù)中進(jìn)行地圖構(gòu)建
    especially for a novel space, while our “scan” takeless than one minute for each room. Once collected, the RGB-Dimages, along with the camera pose and positions, are exportedto our library for map-building.
    且錄制時(shí)必須捕捉地面表面以及環(huán)境中的物體和容器(there cording must capture the floor surface alongside the objectsand receptacles in the environment)
  3. 接下來(lái)是進(jìn)行物體檢測(cè)(Detecting objects)
    在掃描的每一幀上,會(huì)有一個(gè)開放詞匯對(duì)象檢測(cè)器對(duì)掃描的內(nèi)容進(jìn)行處理。本文選擇 OWL-ViT 物體檢測(cè)器,因?yàn)檫@種方法在初步查詢中表現(xiàn)更好
    On each frame of the scan, we run an open-vocabulary object detector. Unlike previous works which usedDetic [7], we chose OWL-ViT [8] as the object detector since we found it to perform better in preliminary queries
    研究者在每一幀上應(yīng)用檢測(cè)器,并提取每個(gè)對(duì)象邊界框、CLIP 嵌入、檢測(cè)器置信度,并將它們傳遞到導(dǎo)航模塊的物體存儲(chǔ)模塊
    We applythe detector on every frame, and extract each of the objectbounding box, CLIP-embedding, detector confidence, and passthem onto the object memory module of our navigation module

    在之前的工作基礎(chǔ)上,我們進(jìn)一步將邊界框細(xì)化為使用Segment Anything(SAM)的對(duì)象掩碼
    Building on top of previous work [27], we further refinethe bounding boxes into object masks with Segment Anything(SAM) [28]
  4. 然后進(jìn)行以物體為中心的語(yǔ)義存儲(chǔ)(Object-centric semantic memory)
    本文借助 VoxelMap(類似于Clip-Fields和OVMM的以物體為中心的記憶) 來(lái)完成這一步(We use an object-centricmemory similar to Clip-Fields [27] and OVMM [25] that wecall the VoxelMap)
    具體來(lái)說(shuō),物體掩模是通過(guò)深度圖像和相機(jī)采集的姿態(tài)反投影到真實(shí)世界坐標(biāo)系中,從而生成一個(gè)點(diǎn)云。每個(gè)點(diǎn)都與來(lái)自CLIP的關(guān)聯(lián)語(yǔ)義向量相關(guān)聯(lián)。然后,我們將點(diǎn)云以5厘米分辨率進(jìn)行立體像素(簡(jiǎn)稱體素)化,并對(duì)每個(gè)體素計(jì)算屬于該體素的CLIP嵌入檢測(cè)器置信度加權(quán)平均值。這個(gè)體素圖構(gòu)成了我們物體記憶模塊的基礎(chǔ)
    The object masks are back-projected inreal-world coordinates using the depth image and the pose collected by the camera, giving us a point cloud where each point has an associated semantic vector coming from CLIP.

    Then, we voxelize the point cloud to a 5 cm resolution and for each voxel, calculate the detector-confidence weighted average for the CLIP embeddings that belong to that voxel. This voxel map builds the base of our object memory module. 

  5. 之后是查詢記憶模塊(Querying the memory module):當(dāng)給定一個(gè)語(yǔ)言查詢時(shí),使用CLIP語(yǔ)言編碼器將其轉(zhuǎn)換為語(yǔ)義向量(Given a language query, we convertit to a semantic vector using the CLIP language encoder)
    然后,我們尋找使編碼向量和立體像素語(yǔ)義表示(the voxel’s semantic representation)之間點(diǎn)積最大化的頂部體素。由于每個(gè)體素都與家中的真實(shí)位置有關(guān)聯(lián),類似于下圖(a),這使得我們能夠找到最有可能匹配查詢對(duì)象所在的地方
    Then,we find the top voxel where the dot product between the encoded vector and the voxel’s semantic representation is maximized. Since each voxel is associated with a real locationin the home, this lets us find the location where a queriedobject is most likely to be found, similar to Figure 2(a)

必要時(shí),本文將「A on B」實(shí)施為「A close B」。為此,查詢 A 選擇前 10 個(gè)點(diǎn),查詢 B 選擇前 50 個(gè)點(diǎn)。然后計(jì)算 10×50 成對(duì)歐氏距離,并選擇與最短 (A, B) 距離相關(guān)的 A 點(diǎn)。

完成上述過(guò)程,接下來(lái)就是導(dǎo)航到現(xiàn)實(shí)世界中的對(duì)象:一旦得到了現(xiàn)實(shí)世界中的 3D 位置坐標(biāo),就可以將其用作機(jī)器人的導(dǎo)航目標(biāo)來(lái)初始化操作階段。導(dǎo)航模塊必須將機(jī)器人放置在手臂可觸到的范圍,以便機(jī)器人隨后可以操縱目標(biāo)物體

為了從空間中的任何其他點(diǎn)安全地導(dǎo)航到目標(biāo)點(diǎn),簡(jiǎn)言之,通過(guò)利用之前捕獲的RGB-D圖像構(gòu)建障礙物地圖,比如創(chuàng)建了一個(gè)2D網(wǎng)格,每個(gè)單元大小為10cm×10cm,然后使用A*算法進(jìn)行導(dǎo)航,具體而言

  1. 為了將體素圖轉(zhuǎn)換為障礙物圖,我們?cè)O(shè)定了地板和天花板高度,并將被占據(jù)的體素視為已占據(jù)的網(wǎng)格單元,而沒有天花板或地板體素則表示未探索的網(wǎng)格單元
    我們將被占據(jù)或未探索的單元標(biāo)記為不可導(dǎo)航區(qū)域
    在每個(gè)被占據(jù)點(diǎn)周圍20厘米范圍內(nèi)的所有點(diǎn)也被標(biāo)記為不可導(dǎo)航區(qū)域,以考慮機(jī)器人本身及其旋轉(zhuǎn)半徑
  2. 在A*算法中,我們使用s3函數(shù)作為節(jié)點(diǎn)成本啟發(fā)式來(lái)遠(yuǎn)離任何障礙物進(jìn)行路徑規(guī)劃,這使得生成路徑與理想Voronoi路徑相似

4.2.2 機(jī)器人對(duì)現(xiàn)實(shí)世界物體的抓握

與開放詞匯導(dǎo)航不同,為了完成抓取任務(wù),算法需要與現(xiàn)實(shí)世界中的任意對(duì)象進(jìn)行物理交互,這使得這部分變得更加困難。因此,本文選擇使用預(yù)訓(xùn)練的抓取模型來(lái)生成現(xiàn)實(shí)世界中的抓取姿態(tài),并使用 VLM 進(jìn)行語(yǔ)言條件過(guò)濾

本文使用的抓取生成模塊是 AnyGrasp,它在給定單個(gè) RGB 圖像和點(diǎn)云的場(chǎng)景中使用平行鉗口夾具生成無(wú)碰撞抓取

  • AnyGrasp 提供了場(chǎng)景中可能的抓握,如上圖第2列所示,包括抓握點(diǎn)、寬度、高度、深度和抓握分?jǐn)?shù),該分?jǐn)?shù)表示每次抓握中未校準(zhǔn)的模型置信度
  • 使用語(yǔ)言查詢過(guò)濾抓握:對(duì)于從 AnyGrasp 獲得的抓握建議,本文采用 LangSam 過(guò)濾抓握。本文將所有建議的抓握點(diǎn)投影到圖像上,并找到落入對(duì)象掩模的抓握點(diǎn)(上圖第 4 列)
  • 抓握?qǐng)?zhí)行。一旦確定了最佳抓握(上圖第5列),就可以使用簡(jiǎn)單的預(yù)抓握方法來(lái)抓握目標(biāo)對(duì)象

4.2.3 釋放或放置對(duì)象的啟發(fā)式模塊

抓握對(duì)象后,接下來(lái)就是將對(duì)象放置在什么地方。與 HomeRobot 的基線實(shí)現(xiàn)不同,該方法假設(shè)物體放下的位置是一個(gè)平坦的表面,本文進(jìn)行了擴(kuò)展,還涵蓋了凹物體,如水槽、箱子、盒子和袋子。

至此,導(dǎo)航、抓握和放置都有了,之后就可以直接將它們組合起來(lái),該方法可以直接應(yīng)用于任何新的家庭。對(duì)于新的家居環(huán)境,該研究可以在一分鐘內(nèi)掃描房間。然后,只需不到五分鐘即可將其處理到 VoxelMap 中。一旦完成,機(jī)器人就可以立即放置在選定的場(chǎng)地并開始運(yùn)行。從到達(dá)一個(gè)全新的環(huán)境到開始在其中自主操作,該系統(tǒng)平均需要不到 10 分鐘即可完成第一個(gè)取放任務(wù)

// 待更

第五部分  Figure人形機(jī)器人

5.1 史無(wú)前例:Figure人形機(jī)器人的驚艷時(shí)刻

5.2 機(jī)器人與人類流暢對(duì)話并流暢干活背后的原理

Figure 的創(chuàng)始人 Brett Adcock 和 AI 團(tuán)隊(duì)的負(fù)責(zé)人 Corey Lynch 在 X 上解釋了此次視頻中機(jī)器人互動(dòng)背后的原理

此次的突破,由 OpenAI 與 Figure 共同做出。OpenAI 提供負(fù)責(zé)提供視覺推理和語(yǔ)言理解,而 Figure 的神經(jīng)網(wǎng)絡(luò)提供快速、低水平、靈巧的機(jī)器人動(dòng)作

機(jī)器人所做出的所有行為都是出于已經(jīng)學(xué)習(xí)過(guò),內(nèi)化了的能力,而不是來(lái)自遠(yuǎn)程操作

整個(gè)流程為:圖像 + speech to text =》VLM接收并做綜合處理 =》NNP輸出執(zhí)行策略 =》 WBC執(zhí)行策略且將VLM處理得到的response speak出來(lái),具體則如下

  1. 研究人員將機(jī)器人攝像頭中的圖像輸入(Figure 的機(jī)載攝像頭以 10hz 的頻率拍攝圖像),和機(jī)載麥克風(fēng)捕獲的語(yǔ)音中的文本轉(zhuǎn)錄到由 OpenAI 訓(xùn)練的,可以理解圖像和文本的多模態(tài)模型(VLM)中
    由該VLM模型處理對(duì)話的整個(gè)歷史記錄,且對(duì)于接下來(lái)要采取什么動(dòng)作干活已有大概的規(guī)劃
  2. 然后通過(guò)Neural Network Policies細(xì)化「VLM給定的大概規(guī)劃」,得到更具體的動(dòng)作策略(決定在機(jī)器人上運(yùn)行哪些學(xué)習(xí)到的閉環(huán)行為來(lái)完成給定的命令)
  3. 最后,一方面將特定的神經(jīng)網(wǎng)絡(luò)權(quán)重加載到 GPU 上并執(zhí)行策略(相當(dāng)于Whole body controller)
    二方面 通過(guò)VLM處理得到的語(yǔ)言響應(yīng)通過(guò)文本到語(yǔ)音的方式將其speak給人類

這也是為什么這個(gè)機(jī)器人,屬于「端到端」的機(jī)器人控制。從語(yǔ)言輸入開始,模型接管了一切處理,直接輸出語(yǔ)言和行為結(jié)果,而不是中間輸出一些結(jié)果,再加載其他程序處理這些結(jié)果

5.2.1 OpenAI的VLM模型:理解環(huán)境 + 人類的口頭任務(wù) + 基本的常識(shí)和上下文記憶能力

OpenAI 的模型的多模態(tài)能力,是機(jī)器人可以與世界交互的關(guān)鍵,我們能夠從視頻中展示中看到許多類似的瞬間,比如:

  1. 描述一下它的周圍環(huán)境
  2. 做出決定時(shí)使用常識(shí)推理。例如,「桌子上的盤子和杯子等餐具接下來(lái)很可能會(huì)進(jìn)入晾衣架」
  3. 比如在視頻中,當(dāng)人說(shuō)“我餓了”,F(xiàn)igure思考了2-3秒后(因?yàn)檎Z(yǔ)音識(shí)別、大語(yǔ)言模型、TTS是通過(guò)pipeline方式連起來(lái)的,都需要計(jì)算時(shí)間),小心翼翼地伸手抓住蘋果,并迅速給人遞過(guò)來(lái)
    因?yàn)镕igure基于大語(yǔ)言模型的常識(shí),明白蘋果是它面前唯一可以“吃”的事物,在人類沒有任何提示和說(shuō)明的前提下,即可以接近于人類的反應(yīng)速度,與人自然交互
    相當(dāng)于有了大模型的支持,讓該機(jī)器人具備了一定的常識(shí)
  4. 比如視頻中展示的「你能把它們放在那里嗎?」「它們」指的是什么?「那里」又在哪里?正確回答需要反思記憶的能力(能夠擁有短期記憶的背后益于大模型的長(zhǎng)上下文的理解能力,使得可以精準(zhǔn)抓取長(zhǎng)上下文里的指代關(guān)系)

5.2.2 機(jī)器人操控小模型(類似Google的RT-1):輸出action

而具體的雙手動(dòng)作,可以分成兩步來(lái)理解:

  1. 首先,互聯(lián)網(wǎng)預(yù)訓(xùn)練模型對(duì)圖像和文本進(jìn)行常識(shí)推理,以得出高級(jí)計(jì)劃。如視頻中展示的:Figure 的人形機(jī)器人快速形成了兩個(gè)計(jì)劃:
    1)將杯子放在碗碟架上,2)將盤子放在碗碟架上
  2. 其次,一個(gè)基于neutral network的機(jī)器人操控小模型以 200hz 的頻率(RT-2論文里提到的決策頻率則只有1到5hz)生成的 24-DOF 動(dòng)作(手腕姿勢(shì)和手指關(guān)節(jié)角度),充當(dāng)高速「設(shè)定點(diǎn)(setpoint)」,供更高速率的全身控制器跟蹤。全身控制器確保安全、穩(wěn)定的動(dòng)力,如保持平衡

所有行為均由Transformer 策略驅(qū)動(dòng)(比如mobile aloha所用過(guò)的ACT算法,本質(zhì)是一個(gè)模仿學(xué)習(xí)),將像素直接映射到動(dòng)作

出門問(wèn)問(wèn)的李志飛認(rèn)為

  1. Figure 01的整個(gè)框架類似于PaLM-E和RT-1的pipeline組合,即分兩步:多模態(tài)模型把復(fù)雜的自然語(yǔ)言指令分解為簡(jiǎn)單指令后,繼而調(diào)用機(jī)器人的操控系統(tǒng)(類似Google的RT-1)執(zhí)行相應(yīng)的動(dòng)作
  2. 而非RT-2,因?yàn)镽T-2中間不再需要將其轉(zhuǎn)化成簡(jiǎn)單指令,通過(guò)自然語(yǔ)言就可得到最終的 Action,算是一個(gè) VLA(Vision-Language-Action Model)模型
    相當(dāng)于RT-2全程就一個(gè)模型,但Figure 01還是組合了OpenAI的VLM + Figure公司的機(jī)器人操控小模型

    RT-2的好處在于做到了真正的端到端 根據(jù)輸入直接得到輸出action(沒有Figure 01中的機(jī)器人操控小模型),壞處是執(zhí)行速度有限,故沒法做到200hz的決策速度

第六部分 清華具身智能CoPa:超過(guò)之前李飛飛團(tuán)隊(duì)的VoxPoser

6.1 清華推出機(jī)器人操控框架CoPa

3月下旬,清華交叉信息研究院的一團(tuán)隊(duì)通過(guò)這篇論文《CoPa: General Robotic Manipulation through Spatial Constraints of Parts with Foundation Models》提出了名為CoPa的機(jī)器人操控框架,其利用嵌入在基礎(chǔ)模型中的常識(shí)知識(shí)(比如視覺語(yǔ)言模型的代表GPT-4V)為開放世界機(jī)器人操控生成一系列6自由度末端執(zhí)行器姿勢(shì)

具體而言,將操控過(guò)程分解為兩個(gè)階段:

  1. 任務(wù)導(dǎo)向抓取,類似抓到錘柄
    使用視覺語(yǔ)言模型(VLMs) 比如GPT4-V,通過(guò)一種新穎的粗到細(xì)的定位機(jī)制選擇對(duì)象的抓取部件(這句話的意思類似,好比人拿一個(gè)錘子去釘釘子時(shí),是知道用手去拿錘子的錘柄,而非錘頭)
  2. 任務(wù)感知運(yùn)動(dòng)規(guī)劃,類似拿打擊面對(duì)準(zhǔn)釘子
    再次利用VLMs來(lái)識(shí)別與任務(wù)相關(guān)的對(duì)象部件的空間幾何狀態(tài)(或約束),然后用于推導(dǎo)抓取后的姿勢(shì)

6.1.1 機(jī)器人基礎(chǔ)模型(相當(dāng)于大腦):用于整體任務(wù)規(guī)劃

近年來(lái),基礎(chǔ)模型已經(jīng)極大地改變了機(jī)器人領(lǐng)域的格局[Toward general-purpose robots via foundation models: A survey and meta-analysis]。 許多研究采用在大規(guī)模圖像數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練的視覺模型,用于生成視覺表征以進(jìn)行視覺運(yùn)動(dòng)控制任務(wù)[比如A universal semanticgeometric representation for robotic manipulation、The unsurprising effectiveness of pre-trained vision models for control、Real-world robot learning with masked visual pre-training,” in Conference on Robot Learning等等]

其他一些研究利用基礎(chǔ)模型來(lái)規(guī)定強(qiáng)化學(xué)習(xí)中的獎(jiǎng)勵(lì)[Vip: Towards universal visual reward and representation via value-implicit pre-training、Eureka: Humanlevel reward design via coding large language models、Learning reward functions for robotic manipulation by observing humans、Zero-shot reward specification via grounded natural language、Can foundation models perform zero-shot task specification for robot manipulation?、Liv: Language-image representations and rewards for robotic contro]

此外,許多研究利用基礎(chǔ)模型進(jìn)行機(jī)器人高層規(guī)劃,取得了顯著的成功,比如

  1. Do as i can, not as i say: Grounding language in robotic affordances
  2. Grounded decoding: Guiding text generation with grounded models for robot control
  3. Look before you leap: Unveiling the power of gpt-4v in robotic vision-language planning
  4. Progprompt: Generating situated robot task plans using large language models
  5. Physically grounded vision-language models for robotic manipulation
  6. Task and motion planning with large language models for object rearrangement
  7. Language models as zero-shot planners: Extracting actionable knowledge for embodiedagents
  8. Text2motion: From natural language instructions to feasible plans
  9. Llm+ p: Empowering large language models with optimal planning proficiency
  10. Robots that ask for help: Uncertainty alignment for large language model planners
  11. Llm-planner: Few-shot grounded planning for embodied agents with large language models
  12. Tidybot: Personalized robot assistance with large language models

當(dāng)然了,也還有一些研究利用基礎(chǔ)模型進(jìn)行低層控制[比如Google的RT-1、RT-2、Open x-embodiment: Robotic learning datasets and rt-x model、Octo: An open-source generalist robot policy

此外,一些研究對(duì)視覺語(yǔ)言模型VLMs進(jìn)行微調(diào),直接輸出機(jī)器人動(dòng)作。 然而,這種微調(diào)方法需要大量的專家數(shù)據(jù),為了解決這個(gè)問(wèn)題

  • Code as Policies [Code as policies: Language model programs for embodied control]使用大型語(yǔ)言模型LLMs編寫控制機(jī)器人的代碼
  • 而VoxPoser[16]通過(guò)基礎(chǔ)模型生成機(jī)器人軌跡,產(chǎn)生基于基礎(chǔ)模型的值圖

然而,這些方法依賴于復(fù)雜的提示工程,并且對(duì)場(chǎng)景只有粗略的理解。 與之形成鮮明對(duì)比的是,CoPa通過(guò)合理利用視覺語(yǔ)言模型中的常識(shí)知識(shí),對(duì)場(chǎng)景有著細(xì)致入微的理解,并且能夠推廣到開放世界的場(chǎng)景,無(wú)需額外的訓(xùn)練,只需要最少的提示工程

6.1.2 機(jī)器人操控模型(相當(dāng)于小腦):用于精確控制

機(jī)器人操控是機(jī)器人領(lǐng)域中一個(gè)關(guān)鍵且具有挑戰(zhàn)性的方面

  • 大量的研究利用專家演示的模仿學(xué)習(xí)IL來(lái)獲得操控技能(比如Google的RT-1、RT-2等等)
    盡管模仿學(xué)習(xí)在概念上很簡(jiǎn)單,并且在廣泛的真實(shí)世界任務(wù)中取得了顯著的成功,但它在處理分布不匹配的樣本時(shí)存在困難,并且需要大量的專家數(shù)據(jù)收集工作
  • 強(qiáng)化學(xué)習(xí)(RL)是另一種主要方法[比如Do as i can, not as i say、Imitation learning from observation with automatic discount scheduling、End-to-end training of deep visuomotor policies]使機(jī)器人能夠通過(guò)與環(huán)境的試錯(cuò)交互來(lái)發(fā)展操控技能

    然而,RL的樣本效率限制了它在真實(shí)世界環(huán)境中的適用性,導(dǎo)致大多數(shù)機(jī)器人系統(tǒng)依賴于從仿真到真實(shí)的轉(zhuǎn)移[比如Sim-to-real reinforcement learning for deformable object manipulation、Self-supervised sim-to-real adaptation for visual robotic manipulation]
    而從仿真到真實(shí)的方法需要構(gòu)建特定的仿真器,并面臨仿真到真實(shí)之間的差距

此外,通過(guò)這些端到端學(xué)習(xí)方法學(xué)習(xí)的策略通常缺乏對(duì)新任務(wù)的泛化能力。 相比之下,通過(guò)利用基礎(chǔ)模型的常識(shí)知識(shí),CoPa可以在開放世界場(chǎng)景中實(shí)現(xiàn)泛化,而無(wú)需額外的訓(xùn)練

6.2 物體抓取與運(yùn)動(dòng)規(guī)劃

打開抽屜需要抓住把手并沿直線拉動(dòng),而拿起水杯則需要先抓住杯子然后抬起來(lái)。受到這一觀察的啟發(fā),將方法分為兩個(gè)模塊:

  1. 面向任務(wù)的抓取
    給定語(yǔ)言指令 l 和初始場(chǎng)景觀察O_0 (RGB-D圖像),在面向任務(wù)的抓取模塊中的目標(biāo)是為指定的感興趣對(duì)象生成適當(dāng)?shù)淖ト∽藨B(tài),該過(guò)程表示為P_{0}=f\left(l, O_{0}\right),并將機(jī)器人到達(dá)P_0后的觀察表示為O_1
  2. 任務(wù)感知的運(yùn)動(dòng)規(guī)劃
    對(duì)于任務(wù)感知的運(yùn)動(dòng)規(guī)劃模塊,我們的目標(biāo)是得出一系列抓取后的姿態(tài),表示為g\left(l, O_{1}\right) \longrightarrow\left\{P_{1}, P_{2}, \ldots, P_{N}\right\},其中N是完成任務(wù)所需的姿態(tài)總數(shù)。 在獲取目標(biāo)姿態(tài)之后,機(jī)器人的末端執(zhí)行器可以利用運(yùn)動(dòng)規(guī)劃算法(如RRT* [50]和PRM* [51])到達(dá)這些姿態(tài)

6.2.1 任務(wù)導(dǎo)向的抓?。篠oM + GPT-4V + 準(zhǔn)確定位物體被抓部位

物體的初始抓取的整個(gè)過(guò)程如下所示

  1. 首先使用SoM對(duì)場(chǎng)景中的物體進(jìn)行分割和標(biāo)記
  2. 然后,結(jié)合指令,我們使用GPT-4V選擇抓取/任務(wù)相關(guān)的物體
  3. 最后,類似的細(xì)粒度部件定位被應(yīng)用于定位特定的抓取/任務(wù)相關(guān)部位

首先,采用一種稱為Set-of-Mark (SoM) [55]的最新視覺提示機(jī)制,其利用分割模型將圖像分割成不同的區(qū)域,并為每個(gè)區(qū)域分配一個(gè)數(shù)字標(biāo)記(即在粗粒度對(duì)象定位階段,使用SoM在對(duì)象級(jí)別上檢測(cè)和標(biāo)記場(chǎng)景中的所有對(duì)象)

其次,類似人類根據(jù)預(yù)期使用方式抓取物體的特定部件(例如,當(dāng)用刀切割時(shí),我們握住刀柄而不是刀刃;同樣,拿起眼鏡時(shí),我們抓住鏡框而不是鏡片。這個(gè)過(guò)程實(shí)質(zhì)上代表了人類運(yùn)用常識(shí)的能力),CoPa利用視覺語(yǔ)言模型(VLMs),如GPT-4V [https://cdn./papers/GPTV_System_Card.pdf],它們?nèi)诤狭舜罅康某WR(shí)知識(shí)[Look before you leap:Unveiling the power of gpt-4v in robotic vision-language planning],[Sage: Bridging semantic and actionable parts for generalizable articulated-object manipulation under language instructions],以確定抓取物體的適當(dāng)部位

最后,為了生成任務(wù)導(dǎo)向的抓取姿勢(shì),我們的方法首先使用抓取模型生成抓取姿勢(shì)提案,并通過(guò)我們的新穎抓取部件基準(zhǔn)模塊篩選出最可行的一個(gè)

那如何生成抓取姿勢(shì)的提案呢?簡(jiǎn)言之,利用預(yù)訓(xùn)練的抓取模型生成抓取姿勢(shì)提案,具體而言

  1. 首先通過(guò)將RGB-D圖像反投影到3D空間中將其轉(zhuǎn)換為點(diǎn)云
  2. 然后將這些點(diǎn)云輸入到GraspNet [Graspnet-1billion: A largescale benchmark for general object grasping]中,這是一個(gè)在包含超過(guò)十億個(gè)抓取姿勢(shì)的大型數(shù)據(jù)集上訓(xùn)練的模型。 GraspNet輸出6自由度的抓取候選項(xiàng),包括抓取點(diǎn)的信息、寬度、高度、深度和“抓取得分”,該得分表示成功抓取的可能性
  3. 然而,鑒于GraspNet在場(chǎng)景中產(chǎn)生了所有潛在的抓取,我們有必要使用一個(gè)選擇性的過(guò)濾機(jī)制來(lái)選擇根據(jù)語(yǔ)言指令所述的具體任務(wù)選擇最佳的抓取方式

總之,回顧上述整個(gè)過(guò)程,可知分為以下三步

  1. VLMs的任務(wù)是根據(jù)用戶的指令來(lái)確定目標(biāo)對(duì)象進(jìn)行抓取(例如,一個(gè)錘子)
  2. 然后,從圖像中裁剪出所選對(duì)象,并應(yīng)用細(xì)粒度部件定位來(lái)確定要抓取的具體部位(例如,錘子的把手)。 這種由粗到細(xì)的設(shè)計(jì)賦予了CoPa對(duì)復(fù)雜場(chǎng)景的細(xì)粒度物理理解能力,實(shí)現(xiàn)了泛化
  3. 最后,我們過(guò)濾抓取姿勢(shì)候選,將所有抓取點(diǎn)投影到圖像上,并僅保留在抓取部件掩碼內(nèi)的點(diǎn)。 從中選擇GraspNet評(píng)分最高的姿勢(shì)作為最終的執(zhí)行抓取姿勢(shì)P_0

6.2.2 任務(wù)感知的運(yùn)動(dòng)規(guī)劃

在成功執(zhí)行面向任務(wù)的抓取后,現(xiàn)在的目標(biāo)是獲得一系列抓取后的姿態(tài)。 可將這一步驟分為三個(gè)模塊:

  1. 與任務(wù)相關(guān)的部件定位
    與之前的抓取部件定位模塊類似,我們使用粗粒度的物體定位和細(xì)粒度的部件定位來(lái)定位與任務(wù)相關(guān)的部件
    在這里,需要識(shí)別多個(gè)與任務(wù)相關(guān)的部件(例如錘子的打擊面、手柄和釘子的表面)。 此外,觀察到機(jī)器人手臂上的數(shù)字標(biāo)記可能會(huì)影響VLM的選擇,因此過(guò)濾掉了機(jī)器人手臂上的標(biāo)記
  2. 操控約束生成
    在執(zhí)行任務(wù)的過(guò)程中,與任務(wù)相關(guān)的物體往往受到各種空間幾何約束的限制。 例如,充電手機(jī)時(shí),充電器的連接器必須與充電口對(duì)齊;同樣,蓋子必須直接放在瓶口上方才能蓋上瓶子。 這些約束本質(zhì)上需要常識(shí)知識(shí),包括對(duì)物體物理屬性的深入理解。 我們旨在利用VLM生成被操控對(duì)象的空間幾何約束
  3. 目標(biāo)姿態(tài)規(guī)劃

6.3 與23年李飛飛團(tuán)隊(duì)VoxPoser的對(duì)比

6.4 目前CoPa的局限與不足

  1. 首先,CoPa處理復(fù)雜對(duì)象的能力受到其依賴的simplistic geometric elements(如surfaces and vector)的限制
    CoPa’s capability to process complex objects is con-strained by its reliance on simplistic geometric elements such as surfaces and vector
    通過(guò)將更多的幾何元素納入我們的建模過(guò)程,可以改善這一點(diǎn)
  2. 其次,目前使用的VLMs是在大規(guī)模2D圖像上進(jìn)行預(yù)訓(xùn)練的,缺乏對(duì)3D物理世界的真實(shí)基礎(chǔ)。這個(gè)限制影響了它們進(jìn)行準(zhǔn)確的空間推理的能力
    若將3D輸入(如點(diǎn)云)整合到VLMs的訓(xùn)練階段中,可以緩解這個(gè)挑戰(zhàn)
  3. 最后,現(xiàn)有的VLMs只產(chǎn)生離散的文本輸出,而我們的框架實(shí)際上需要連續(xù)的輸出值,如物體部件的坐標(biāo)
    the existing VLMs produce only discrete textual outputs, where as our framework essentially necessitates continuous output values, like the coordinates of object parts
    開發(fā)具備這些能力的基礎(chǔ)模型仍然是一個(gè)備受期待的進(jìn)展

// 待更

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多