热点资讯
制服丝袜吉吉影音 你的位置:队长骑在女知青身子上 > 制服丝袜吉吉影音 > 女教师日记 视觉话语机器东谈主的大爆发:从RT2、VoxPoser、OK
女教师日记 视觉话语机器东谈主的大爆发:从RT2、VoxPoser、OK发布日期:2025-07-03 13:20    点击次数:86

女教师日记 视觉话语机器东谈主的大爆发:从RT2、VoxPoser、OK

弁言

一年多前,OpenAI重塑了聊天机器东谈主,绝对推动大模子技艺的与日俱增女教师日记,一个月前,OpenAI又重塑了视频生成,当sora的热度还在接续时,没猜想OpenAI在机器东谈主领域也首先了,和Figure和谐打造的东谈主形机器东谈主,边与东谈主类自然畅达对话、边干活(给东谈主类苹果、整理桌面)

如斯,面前大模子机器东谈主的发展有三个攻克点

一个是效法学习,以斯坦福的mobile aloha、UMI为代表一个是预西席 + RL,以CMU 18万机器东谈主为代表一个则是视觉话语模子,以VoxPoser、figure 01、CoPa为代表,过程中有的会用到效法学习去西席机器东谈主的动作政策

本文则要点先容第三个攻克点

第一部分 Google的RT1、PaLM-E、RT-2

图片女教师日记

1.1 RT-1

图片

1.2 PaLM-E:将复杂自然话语指示剖释为浅易指示

图片

1.3 RT-2:径直领路复杂指示从而径直操控机械臂

在此之前,RT-1 作念的事情仅仅把浅易指示转动成机械臂动作序列,而 PaLM-E 的责任则是用大模子将复杂的指示剖释成多个浅易的指示,然后再去调用 RT-1 践诺动作

图片

RT-2 则是把以上要道端到端地集成到了沿途,它能够用复漫笔本指示径直操控机械臂,中间不再需要将其转动成浅易指示,通过自然话语就可得到最终的 Action。比如,不错径直对它说往左边移 0.1 毫米,把夹子减轻或者夹紧等

第二部分 李飞飞团队:具身智能VoxPoser 2.1 机器东谈主对从没见过的任务也能一次践诺且不需要示范

大模子接入机器东谈主,把复杂指示转动成具体步履贪图,无需颠倒数据和西席,说白了,东谈主类不错很应付地用自然话语给机器东谈主下达指示,如:翻开上头的抽屉,小心花瓶!

图片

假话语模子+视觉话语模子就能从3D空间平分析出标的和需要绕过的梗阻,匡助机器东谈主作念步履贪图

图片

然后要点来了, 果然天下中的机器东谈主在未经“培训”的情况下,就能径直践诺这个任务。

图片

新方法杀青了零样本的日常操作任务轨迹合成,也即是机器东谈主从没见过的任务也能一次践诺,连给他作念个示范都不需要。

可操作的物体亦然绽放的,无谓事前规矩范围,开瓶子、按开关、拔充电线都能完成

图片

2.2 VoxPoser:大模子领导机器东谈主如何与环境进行交互 2.2.1 3D Value Map:既鲜艳了“在那里步履”,也鲜艳了“如何步履”

机器东谈主如何径直听懂东谈主话?李飞飞团队将该系统定名为VoxPoser,如下图所示,它的旨趣绝顶浅易(神色地址、论文地址、代码地址,发布于23年7月)

图片

最初,给定环境信息(用相机采集RGB-D图像)和咱们要践诺的自然话语指示例如,给定一条指示“翻开顶层抽屉并提神花瓶”,LLMs不错被指示测度作念任务拆解(而这个拆解很重要啊,拆解的好 机器东谈主不错更快get):1)应该收拢顶层抽屉的把手,2)把手需要向外挪动,3)机器东谈主应该隔离花瓶

图片

接着,LLM(假话语模子)笔据这些内容编写代码,所生成代码与VLM(视觉话语模子)进行交互,领导系统生成相应的操作指示舆图,即3D Value Map 所谓3D Value Map,它是Affordance Map和Constraint Map的总称,既鲜艳了“在那里步履”,也鲜艳了“如何步履”比如,连续接着上头的例子——“翻开顶层抽屉并提神花瓶”而言,通过生成调用感知API的Python代码(generating Python code to invoke perception APIs),LLMs不错取得相干对象或部件的空间几何信息,然后主宰3D体素(3D voxels)以在不雅察空间的相干位置上指定奖励或资本(例如,把手区域被分派高值,而花瓶周围被分派低值,即the handle region is assigned high values while the surrounding of the vase is assigned low values)

图片

如斯一来,再搬转移作贪图器,将生成的3D舆图动作其标的函数,便能够合成最终要践诺的操作轨迹了 而从这个过程咱们不错看到,比较传统方法需要进行颠倒的预西席,这个方法用大模子领导机器东谈主如何与环境进行交互,是以径直处治了机器东谈主西席数据稀缺的问题 更进一步,恰是由于这个特色,它也杀青了零样本才能,只消掌持了以上基本进程,就能hold任何给定任务相配于对于上头的任务——“翻开顶层抽屉并提神花瓶”,在其临了,组合的价值舆图不错动作劝诱贪图器的标的函数,径直合成杀青给定指示的机器东谈主轨迹 1,而无需为“每个任务或LLM”颠倒提供西席数据 2.2.2 将指示拆解成好多子任务 + 贪图旅途

在具体杀青中,作家将VoxPoser的想路转动为一个优化问题,即底下这么一个复杂的公式:

图片

其中

图片

默示机器东谈主,

图片

默示机器东谈主对应的劝诱轨迹,其中每个旅途点包括渴望的6摆脱度结尾践诺器姿态、结尾践诺器速率和夹爪动作,

图片

默示第

图片

个任务

图片

评分了

图片

 完成指示

图片

的进程,而

图片

指定了限制资本,例如荧惑

图片

尽量减少总限制力或总时间

图片

默示能源学和劝诱学贬抑,这些贬抑由机器东谈主的已知模子和基于物理或基于学习的环境模子来实施 最终,通过为每个子任务

图片

处治这个优化问题,得到了一系列机器东谈主轨迹,共同杀青了指示

图片

 所指定的举座任务

它斟酌到了东谈主类下达的指示可能范围很大,况兼需要荆棘文领路,于是将指示拆解成好多子任务,比如发轫第一个示例就由“收拢抽屉把手”和“拉开抽屉”组成

VoxPoser要杀青的即是优化每一个子任务,取得一系列机器东谈主轨迹,最终最小化总的责任量和责任时间

中文字幕

而在用LLM和VLM将话语指示映射为3D舆图的过程中,系统斟酌到话语不错传达丰富的语义空间,便利用“感意思意思的实体(entity of interest)”来引导机器东谈主进行操作,也即是通过3D Value Map中鲜艳的值来反应哪个物体是对它具有“眩惑力”的,那些物体是具有“抹杀性”。

图片

如故以发轫的例子例如,抽屉即是“眩惑”的,花瓶是“抹杀”的。

自然,这些值如何生成,就靠假话语模子的领路才能了。

而在临了的轨迹合成过程中,由于话语模子的输出在统共这个词任务中保持不变,是以咱们不错通过缓存其输出,并使用闭环顾觉反馈从新评估生成的代码,从而在遭逢侵扰时快速进行从新贪图

因此,VoxPoser有着很强的抗侵扰才能,比如下图将废纸放进蓝色托盘

图片

临了,作家还惊喜地发现,VoxPoser产生了4个“透露才能”:

图片

评估物理本性,比如给定两个质料未知的方块,让机器东谈主使用用具进行物理实验,细则哪个块更重;步履知识推理,比如在摆餐具的任务中,告诉机器东谈主“我是左撇子”,它就能通过荆棘文领路其含义;细粒度改造,比如践诺“给茶壶盖上盖子”这种精度要求较高的任务时,咱们不错向机器东谈主发出“你偏离了1厘米”等精确指示来改造它的操作;基于视觉的多步操作,比如叫机器东谈主将抽屉精确地翻开成一半,由于莫得对象模子导致的信息不及可能让机器东谈主无法践诺这么的任务,但VoxPoser不错笔据视觉反馈提议多步操作政策,即最初都备翻开抽屉同期纪录手柄位移,然后将其推回至中点就不错幽闲要求了 第三部分 RoboFlamingo:首个开源的视觉-话语机器东谈主操作大模子

比年来,大模子的照顾正在加快激动,它迟缓在种种任务上展现出多模态的领路和时间空间上的推理才能。机器东谈主的种种具身操作任务自然就对话语指示领路、场景感知和时空贪图等才能有着很高的要求,这自然扩充出一个问题:能不可充分利用大模子才能,将其转移到机器东谈主领域,径直贪图底层动作序列呢?

23年Google发布的一项颇有影响力的责任即Robotics Transformer 2(RT-2),依然展示了一种使vlm适合初级机器东谈主限制的可能处治决议,然则其需要对平日的视觉-话语数据进行和谐微调,以充分展示其有用性。因此,机器东谈主领域遑急需要一种低资本的替代处治决议,有用地启用具有vlm的机器东谈主操作政策

对此,ByteDance Research 基于开源的多模态话语视觉大模子 OpenFlamingo 劝诱了开源、易用的 RoboFlamingo 机器东谈主操作模子,只用单机就不错西席。使用浅易、极少的微调就不错把 VLM 变成 Robotics VLM,从而适用于话语交互的机器东谈主操作任务

神色主页:https://roboflamingo.github.io代码地址:https://github.com/RoboFlamingo/RoboFlamingo论文地址:Vision-Language Foundation Models as Effective Robot Imitators,Submitted on 2 Nov 2023 (v1)

OpenFlamingo 在机器东谈主操作数据集 CALVIN 上进行了考据,实验收尾标明,RoboFlamingo 只利用了 1% 的带话语标注的数据即在一系列机器东谈主操作任务上取得了 SOTA 的性能。跟着 RT-X 数据集绽放,领受开源数据预西席 RoboFlamingo 并 finetune 到不同机器东谈主平台,将有但愿成为一个浅易有用的机器东谈主大模子 pipeline

3.1 之前的相干责任

这是此前的一些责任,主要有以下三大类

微调 尽管Jang等东谈主(2022)和Lynch & Sermanet(2020)等早期照顾依然西席了一个视觉编码器和一个话语编码器,以学习主宰任务中输入话语和视觉数据的默示,但最近的一些责任径直领受预西席模子来获取优质默示,并从新首先西席政策模子或微调统共这个词模子(some recent work directly takes pre-trained models to obtain great representations, then trains the policy model beyond them from scratch or fine-tuning the whole model)

图片

例如,Jiang等东谈主领受预西席的T5模子对多模态指示进行编码,并通过微调T5模子以及颠倒西席对象编码器和提神力层来学习动作For instance, Jiang et al. (2023) utilizes a pre-trained T5 (Raffel et al., 2020) model to encodethe multi-modal prompts, and learn the actions by fine-tuning the T5 model and additionally trainingan object encoder and attention layers 此外,还有上文提到过的RT-1 (即Robotics Transformer),动作一个35M的视觉-话语-动作模子(VLA),其通过将动作鲜艳化并在鲜艳空间中对都视觉、话语和动作,且在广泛果然天下主宰数据集上进行西席「Besides, Brohan et al. (2022) proposedRT-1, i.e., robotics transformers, a 35M vision-language-action model (VLA) which tokenizes the action and aligns the vision, language, and action in the token space and is trained on a large amount of real-world manipulation dataset 」 它使用Universal Sentence编码器(Cer等东谈主,2018)获取话语镶嵌,并领受预西席的EfficientNet-B3(Tan & Le,2019)动作视觉鲜艳器「using the Universal Sentence Encoder (Cer et al., 2018) to obtain the language embedding and the pre-trained EfficientNet-B3 (Tan & Le, 2019) as the vision tokenizer.」LLM贪图 一些方法依然利用大型话语模子(LLMs)动作刚硬的零样本谋略器,例如SayCan Ahn等东谈主(2022),以生成预界说的分步谋略,并在给定任务上提供东谈主工交互指示,随后指示不同的预西席初级政策来践诺这些谋略并完成多个任务Some approaches have exploited large language models (LLMs) as a powerful zero-shot planner, e.g., SayCan Ahn et al. (2022), to generate step-by-step pre-defined plans with human-interactive prompts on given tasks, subsequently instructing different pre-trained low-levelskill policies to execute those plans and finish multiple tasks.

图片

与其他照顾比较,限制政策无需领路指示才能,而是依赖预西席冻结LLM来选拔必要手段Compared to other works, the controllingpolicies do not require any ability to understand instructions, but rely on the pre-trained frozen LLMto select necessary skills.协同精调Co-Fine-Tuning Dries等东谈主提议了540B PaLM-E模子,展示了一种不同的利用预西席视觉和话语模子的方法(Driess et al. (2023) proposed 540B PaLM-E model, showing a different way ofutilizing the pre-trained vision and language model)

图片

具体而言,如下三点

图片

  他们选拔了不同的预西席模子来编码输入场景,并将PaLM动作基础模子(they choose different pre-trained models to encoder the input scene, and the PaLM (Chowdhery et al., 2022) model as the base model)

图片

  通过使用挪动操作问答数据以及从Web收罗的图像标题和视觉问答数据等辅助视觉话语西席数据(using both mobile manipulation question-answering data and auxiliary vision-language training data such as image captioning and visual question answering data collected from the web)

图片

  他们通过端到端协同微调统共这个词VLM来西席模子生成由话语描摹的预界说多步谋略(train the model to generate pre-defined multi-step plans described by language by co-fine-tuning the whole VLM end-to-end) 与SayCan访佛,他们需要初级限制政策来践诺生成的谋略(Similar to SayCan (Ahn et al., 2022), they require low-level control policies to executethe generated plans) 然,他们的方法揭示了VLMs在适合机器东谈主操作方面具有后劲,但是他们环节性的协同微调西席政策需要广泛范围化Web数据、视觉话语数据和初级机器东谈主动作。此外,VLMs至极所使用的数据是独有化的,这使得每位机器东谈主从业者难以实施这么的处治决议Their method reveals that VLMs have the potential to be adapted into robot manipulation, yet their key co-fine-tuning training strategy requires a large amount of both web-scale data vision-languagedata and low-level robot actions. Additionally, the VLMs and the data they use are private, making ithard for every robotics practitioner to play on such a solution for their own

总之,尽管之前的模子在一定进程上弥合了机器东谈主操作任务中视觉和话语之间的差距,但它们要么专注于初级手段政策(如SayCan和PaLM-E),要么西席一个弘大的举座模子(如RT-1),或者需要广泛视觉话语数据和盘算资源来确保学习操作政策时不会冷落视觉与话语之间重要的对都关系

比较这些责任,RoboFlamingo是一个浅易而直不雅的处治决议,不错迫害适合现存VLM(本文使用OpenFlamingo)并只需微调极少操作演示RoboFlamingo is a simple andintuitive solution to easily adapt existing VLMs (OpenFlamingo (Alayrac et al., 2022; Awadallaet al., 2023) used in this paper), only requiring fine-tuning on a small number of manipulation demonstrations

图片

3.2 RoboFlamingo: Vision Encoder + Feature Fusion Decoder + Policy Head

具体而言,RoboFlamingo利用已有的基于图像 - 文本对的视觉话语基础模子,通过西席端到端的方式生成机器东谈主每一步的 relative action

模子的主要模块包含了 vision encoder,feature fusion decoder 和 policy head 三个模块,以下是这三个模块差别要作念的事

图片

Vision encoder 模块先将现时视觉不雅测输入到 ViT 中,并通过 resampler 对 ViT 输出的 token 进行 down sampleFeature fusion decoder 将 text token 动作query

图片

  并在每个 layer 中先将 vision encoder 的 output 动作 key和value 进行 cross attention提神,在交叉提神力中,什么作念Q,什么作念K V确乎容易混浊,有的新闻稿便会弄错,怎样细心搞错呢?i)  不错浅易凶残的把Q界说为主东谈主,K V界说为来宾,主东谈主一般邀宴来宾到家相易,而在咱们面对Feature fusion decoder时,它内部的text token自然即是主东谈主,故自然动作query,然后把vision encoder 的 output 拿过来作念cross attention,而拿过来的output自然便动作来宾邀请过来了,故而是key和valueii) 其实包括transformer中decoder的第二个提神力层便也有访佛之意(详见此篇transformer平淡札记)

图片

图片

  之后进行 self attention 以完成视觉与话语特征的交融临了,对 feature fusion decoder 进行 max pooling 后将其送入 policy head 中 policy head 笔据 feature fusion decoder 输出确现时和历史 token 序列径直输出现时的 7 DoF relative action(包括6-dim 的机械臂结尾位姿和 1-dim 的 gripper open/close)

在西席过程中,RoboFlamingo 利用预西席的 ViT、LLM 和 Cross Attention 参数,并只微调 resampler、cross attention 和 policy head 的参数

效法学习「Imitation learning (Pomerleau, 1988; Zhang et al., 2018; Liu et al., 2020; Jang et al., 2022) 」,允许智能体通过从指示鲜艳的大家游戏数据

图片

中进行效法来学习 其中

图片

默示轨迹数目,

图片

默示话语指示,

图片

包含在达到给定指示描摹的标的之前所采取的气象和动作学习标的不错浅易地归结为最大化似然要求下政策

图片

的效法标的(The learning objective can be simply concluded as a maximum likelihood goal-conditioned imitation objective to learn the policy πθ)

图片

3.2.1 视觉编码器Vision Encoder(ViT + 重采样器Resampler):得到视觉特征

图片

视觉编码器由ViT和重采样器Resampler组成

图片

最初,在每个时间步长t,通过ViT模块对双视图相机图像

图片

图片

编码为由visual token sequence组成的

图片

(The vision encoder consists of a vision transformer (ViT) (Yuan et al., 2021) and a perceiver resampler (Alayrac et al., 2022). At every time step t, the two-view camera images It, Gt are encoded to Xˆt, consisting of a visual token sequence, through the ViT module):

图片

其中

图片

默示

图片

处的视觉token序列,

图片

默示编码后输出的token编号其次,在编码之后,RoboFlamingo利用感知器重采样器Resampler 将视觉tokens的数目从N压缩到K。换句话说,Resampler通过变嫌一组可学习的参数,并运用提神力机制将token序列的数目减少至

图片

(the resampler maintains a set of learnable parameters and utilizes the attention mechanism to reduce the number of token sequences to K)

格式上,Resampler的公式如下:

图片

图片

图片

其中

图片

,动作Resampler可学习参数的查询向量

图片

默示荫藏维度大小

图片

,默示键和值的线性变换矩阵

图片

为视觉token特征维度

图片

图片

是经过变换后的视觉输入V的键和值向量 3.2.2 特征交融化码器Feature Fusion Decoder

重采样器

图片

输出的压缩视觉tokens进一步传递至特征交融化码器,该解码器旨在通过将“话语指示”与“编码的视觉特征

图片

”交融,以生成视觉-话语和谐镶嵌(The compressed visual tokens output from the resampler Xtv ∈ RK×d are further passed to the feature fusion decoder, which is designed to generate the vision-language joint embedding by fusing the language instruction with the encoded vision feature Xtv)

在RoboFlamingo中,咱们利用OpenFlamingo的预西席解码器,并按照Awadalla等东谈主的方式对解码器模块进行微调,具体来说,解码器有

图片

层,每一层都波及一个transformer解码器层和一个交叉提神力层(each of which involves a transformer decoder layer and a cross-attention layer)

图片

transformer层径直从预西席的话语模子(如LlaMA (Touvron et al., 2023)、GPT-Neox (Black et al., 2022)和MPT (Team et al., 2023))中复制而来,并在统共这个词西席过程中被冻结The transformer layers are directly copied from a pre-trained language model (such as LlaMA (Touvron et al., 2023), GPT-Neox (Black et al., 2022) and MPT (Team et al., 2023)) and are frozen during the whole training process交叉提神力层将话语token动作query,将编码后的视觉token动作key和value,通过在主宰数据上的效法学习标的进行微调the cross-attention layer takes the language token as query, and the encoded visual token as key and value, which is fine-tuned by imitation learning objectives on manipulation data (see following sub-sections)

格式上,要是咱们将

图片

默示为指示的第i -th个镶嵌token(we denote xi ∈ Rd the i−th embedded token of the instruction),

图片

默示为指示长度,

图片

默示为指示的镶嵌矩阵(X ∈ RM×d is the embedded matrix of the instruction)

那么镶嵌的自然话语指示应该为

图片

,况兼给定输入

图片

时,不错盘算出第

图片

个解码器层的输出

图片

(then the embedded natural language instruction should be X = (x1, x2, · · · , xM) and output Xtl+1 of the l-th decoder layer given the input Xtl is computed by)

图片

其中

图片

图片

对应于时间

图片

时刻门控交叉提神力层的输出(ˆXl t corresponds to the output of the gated cross-attention layer at time instant t)

图片

默示交叉提神力层(cross-attention layer)的可学习参数

图片

是一个可学习的门控参数,用于调理踏实性的搀和权重(α ∈ R is a learnable gate parameter to control the mixing weights for stability)

图片

默示自提神力层的参数MLP代表多层感知器蚁合

通过视觉和话语token之间的深度互动,咱们渴望得到输出

图片

的机器东谈主操作(With the deep interaction of the vision and language token, we expect the output Xt = Xt L = {x L t,1 , xL robot manipulation) 3.2.3 policy head

特征交融化码器的输出

图片

被西席为视觉不雅察和话语指示的默示(The output Xt L from the feature fusion decoder is trained as the representation of the vision observation and language instruction),这些默示将进一步翻译成初级限制信号(which will be further translated into low-level control signals)

为了杀青这一标的,咱们领受一个颠倒的政策头

图片

来瞻望动作,例如7摆脱度结尾践诺器姿态和夹持器气象(the 7 DoF end-effector pose and gripper status),且尝试了多种政策来模拟历史不雅测序列,并将其动作政策头进哄骗用

图片

比如辱骂期系念蚁合(LSTM)(Hochreiter & Schmidhuber, 1997),带有一个MLP用于最终瞻望访佛的仅解码器变换器(Brown et al., 2020)也被测试过,其中包含一个MLP或者只对单步信息进行建模的单个MLP

以LSTM版块为例,在视觉-话语和谐镶嵌序列

图片

(with the vision-language joint embedding sequence Xt L)上通过在token dimension上进行最大池操作得到团聚镶嵌(aggregated embedding),并瞻望动作

图片

图片

图片

其中

图片

默示

图片

处的荫藏气象,

图片

图片

是瞻望的结尾践诺器姿态和夹持器气象

最终,咱们利用最大似然效法学习标的来微调所提议的pre-trained backbone和policy head

具体来说,渴望的相对姿态通过记忆亏蚀(可使用均方差错MSE亏蚀)进行优化,而抓手气象使用分类亏蚀(可使用二进制交叉熵BCE亏蚀):

图片

其中

图片

图片

是时间步长

图片

时结尾践诺器姿态和抓取器气象的演示

图片

对应于抓取器亏蚀的权重(λgripper corresponds to the weight of gripper loss)

在西席过程中,咱们受命OpenFlamingo的微调程序,只西席重采样器Resampler的参数,每个解码器层的gated cross-attention module和policy head,而冻结统共其他参数(In the training procedure, we follow the fine-tuning paradigm of OpenFlamingo by only training the parameters of the resampler, the gated cross-attention module of each decoder layer, and the policy head while freezing all other parameters)

3.3 实验收尾 3.3.1 基准和基线

数据集:

图片

CALVIN(Composing Actions from Language and Vision)是一个开源的模拟基准测试,用于学习基于话语的 long-horizon 操作任务

与现存的视觉 - 话语任务数据集比较,CALVIN 的任务在序列长度、动作空间和话语上都更为复杂,并支持纯真地指定传感器输入CALVIN 分为 ABCD 四个 split,每个 split 对应了不同的 context 和 layout

定量分析:

图片

RoboFlamingo 在各劝诱和主张上的性能均为最好,讲解了其具有很强的效法才能、视觉泛化才能以及话语泛化才能

Full 和 Lang 默示模子是否使用未配对的视觉数据进行西席(即莫得话语配对的视觉数据)Freeze-emb 指的是冻结交融化码器的镶嵌层Enriched 默示使用 GPT-4 增强的指示 3.3.2 不同的 policy head

消融实验:

图片

实验历练了四种不同的政策头部:MLP w/o hist、MLP w hist、GPT 和 LSTM,其中

MLP w/o hist 径直笔据现时不雅测瞻望历史(MLP w/o hist takes only the current observation as input topredict actions, which ignores the observation history),其性能最差MLP w hist 将历史不雅测在 vision encoder 端进行交融后瞻望 action(MLP w hist takes the history frames into the vision encoder with position embedding, and encodes the history information through the cross-attention layers in the feature fusion decoder),性能有所晋升GPT 和 LSTM 在 policy head 刑事包袱别显式、隐式地变嫌历史信息(c) GPT and (d) LSTM both utilize the VLM backbone to process single-frame observation and integrate the history with the policy head.GPT explicitly takes the visual history as input to predict the next action LSTM implicitly maintainsa hidden state to encode memory and predict the action 其发达最好,讲解了通过 policy head 进行历史信息交融的有用性 且由于GPT和LSTM的性能相似,故选拔LSTM动作默许选拔,毕竟其杀青相对更浅易 3.3.3 预西席、模子大小、指示微调对机器东谈主的影响 视觉-话语预西席的影响 预西席对于 RoboFlamingo 的性能晋腾飞到了环节作用。实验炫耀,通过预先在大型视觉-话语数据集上进行西席。RoboFlamingo 在机器东谈主任务中发达得更好模子大小与性能 自然时时更大的模子会带来更好的性能,但实验收尾标明,即使是较小的模子,也能在某些任务上与大型模子忘形指示微调的影响 指示微调是一个刚硬的技巧,实验收尾标明,它不错进一步提高模子的性能

图片

图片

图片

图片

图片

图片

3.3.4 定性收尾

相较于基线方法,RoboFlamingo 不但完竣践诺了 5 个一语气的子任务,且对于基线页践诺告捷的前两个子任务,RoboFlamingo 所用的步数也显豁更少

图片

以下是RoboFlamingo的一些重要参考文件

Brohan, Anthony, et al. 'Rt-1: Robotics transformer for real-world control at scale.' arXiv preprint arXiv:2212.06817 (2022).Brohan, Anthony, et al. 'Rt-2: Vision-language-action models transfer web knowledge to robotic control.' arXiv preprint arXiv:2307.15818 (2023).Mees, Oier, Lukas Hermann, and Wolfram Burgard. 'What matters in language conditioned robotic imitation learning over unstructured data.' IEEE Robotics and Automation Letters 7.4 (2022): 11205-11212.Alayrac, Jean-Baptiste, et al. 'Flamingo: a visual language model for few-shot learning.' Advances in Neural Information Processing Systems 35 (2022): 23716-23736.Mees, Oier, et al. 'Calvin: A benchmark for language-conditioned policy learning for long-horizon robot manipulation tasks.' IEEE Robotics and Automation Letters 7.3 (2022): 7327-7334.Padalkar, Abhishek, et al. 'Open x-embodiment: Robotic learning datasets and rt-x models.' arXiv preprint arXiv:2310.08864 (2023).Brown, Tom, et al. 'Language models are few-shot learners.' Advances in neural information processing systems 33 (2020): 1877-1901.Awadalla, Anas, et al. 'Openflamingo: An open-source framework for training large autoregressive vision-language models.' arXiv preprint arXiv:2308.01390 (2023).Driess, Danny, et al. 'Palm-e: An embodied multimodal language model.' arXiv preprint arXiv:2303.03378 (2023).Jiang, Yunfan, et al. 'VIMA: General Robot Manipulation with Multimodal Prompts.' NeurIPS 2022 Foundation Models for Decision Making Workshop. 2022.Mees, Oier, Jessica Borja-Diaz, and Wolfram Burgard. 'Grounding language with visual affordances over unstructured data.' 2023 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2023.Tan, Mingxing, and Quoc Le. 'Efficientnet: Rethinking model scaling for convolutional neural networks.' International conference on machine learning. PMLR, 2019.Zhang, Tianhao, et al. 'Deep imitation learning for complex manipulation tasks from virtual reality teleoperation.' 2018 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2018. 第四部分 纽约大学和Meta:OK-Robot 4.1 OK-Robot:What Really Matters in Integrating Open-KnowledgeModels for Robotics

最近,纽约大学、Meta 研发出的一款机器东谈主学会了这个手段。你只需要对它说,「把桌子上的玉米片拿到床头柜上」,它就能我方找到玉米片,并贪图前途线和相应的动作,告成完成任务。此外,它还能帮你整理东西或扔垃圾

图片

这个机器东谈主名叫 OK-Robot,由来自纽约大学、Meta 的照顾者共同构建。他们将视觉话语模子(用于物体检测)、导航和抓取的基础模块整合到一个绽放知识型框架中,为机器东谈主的高效拾放操作提供了处治决议

论文结合:OK-Robot: What Really Matters in Integrating Open-KnowledgeModels for Robotics,Submitted on 22 Jan 2024神色结合:https://ok-robot.github.io

OK-Robot 定位中的「绽放知识」指的是在大型公开数据集上西席的学习模子

当 OK-Robot 被扬弃在一个新的家庭环境中时,它将从 iPhone 上获取扫描收尾。笔据扫描收尾,它会使用 LangSam(即Language Segment-Anything) 和 CLIP 盘算出密集的视觉话语表征,并将其存储在语义存储器中OK-Robot is seeded with a scan taken from an iPhone. Given this scan, dense vision-language representationsare computed using LangSam [24] and CLIP [9] and storedin a semantic memory在此之后,给定一个需要拾取的对象的话语查询,查询的话语表征与语义系念相匹配Then, given a language-query for an object that has to be picked, language representations of the query is matched with semantic memory接下来,它会挨次应用导航和拾取模块,挪动到所需物体并将其拾取。访佛的过程也可用于丢弃物体After this, navigationand picking primitives are applied sequentially to move to the desired object and pick it up. A similar process can be carriedout for dropping the object

为了照顾 OK-Robot,照顾者在 10 个果然的家庭环境中对其进行了测试

header_video_ultra_ultra_com..

通过实验,他们发现,在一个从未见过的自然家居环境中,该系统零样本部署的告捷率平均为 58.5%。然则,这一告捷率在很猛进程上取决于环境的「自然进程」。因为他们发现,通过立异查询、整理空间和排除显豁具有抗击性的物体(太大、太半透明、太滑),这一告捷率达到了约 82.4%

总之,通过实验,他们得出了以下论断:

预西席的视觉话语模子对绽放词汇导航绝顶有用:面前的open-vocabulary vision-language模子 —— 如 CLIP 或 OWL-ViT(Vision Transformer for Open-World Localization,by Google Research 2022)—— 在识别果然天下中的随心物体方面发达出色,并能以零样本的方式导航、找到这些物体Pre-trained VLMs are highly effective for open-vocabulary navigation: Current open-vocabulary vision-language models such as CLIP [9] or OWL-ViT [Simple Open-Vocabulary Object Detection with Vision Transformers,和DETR有点点访佛,两阶段西席方式:1. Contrastively pre-train image and text encoders on large-scale image-text data,2. Add detection heads and fine-tune on medium-sized detection data]

图片

offer strong performance in identifing arbitrary objects in the realworld, and enable navigating to them in a zero-shot manner预西席的抓取模子可径直应用于挪动操控:与 VLM 访佛,笔据广泛数据预西席的专用机器东谈主模子不错径直应用于家庭中的绽放词汇抓取。这些机器东谈主模子不需要任何颠倒的西席或微调如何组合组件至关重要: 照顾者发现,在预先西席好模子的情况下,不错使用一个浅易的气象机模子(state-machine model)将它们组合起来,而无需进行任何西席。他们还发现,使用启发式方法来对消机器东谈主的物理放肆,不错在果然天下中取得更高的告捷率面前仍存在一些挑战:斟酌到在职意家庭中进行零样本操作的巨大挑战,OK-Robot 在先前责任的基础上进行了立异:通过分析失败模式,他们发面前视觉话语模子、机器东谈主模子和机器东谈主形态学方面不错进行重要立异,这将径直提高绽放知识主宰智能体的性能 4.2 技艺组成和方法

该照顾主要处治这个问题:从 B 上提起 A 并将其放在 C 上,其中 A 是一个物体,B 和 C 是现实天下环境中的某个场合。要杀青这一丝,所提系统需要包含以下模块:

绽放词汇对象导航模块绽放词汇 RGB-D 抓取模块开释或扬弃对象的启发式模块(dropping heuristic) 4.2.1 绽放词汇物体导航(open-vocabulary object navigation):扫描、构图、检测、存储、查询、寻路 最初是扫描房间 绽放词汇对象导航受命了 CLIP-Fields 的方法,并假定有一个预先映射阶段,即使用 iPhone 手动扫描家庭环境Scanning the home: For open vocabulary object navigation,we follow the approach from CLIP-Fields [27] and assumea pre-mapping phase where the home is “scanned” manually using an iPhone.  这种手动扫描仅仅用 iPhone 上的 Record3D 应用要领拍摄家庭视频,这将产生一系列带位置的 RGB-D 图像This manual scan simply consists of taking a video of the home using the Record3D app on the iPhone,which results in a sequence of posed RGB-D images.舆图构建 扫描每个房间的时间不到一分钟,一朝信息收罗完了,RGB-D 图像以及相机的姿态和位置就被导出到神色库中进行舆图构建especially for a novel space, while our “scan” takeless than one minute for each room. Once collected, the RGB-Dimages, along with the camera pose and positions, are exportedto our library for map-building. 且录制时必须捕捉大地名义以及环境中的物体和容器(there cording must capture the floor surface alongside the objectsand receptacles in the environment)接下来是进行物体检测(Detecting objects) 在扫描的每一帧上,会有一个绽放词汇对象检测器对扫描的内容进行处理。本文选拔 OWL-ViT 物体检测器,因为这种方法在初步查询中发达更好On each frame of the scan, we run an open-vocabulary object detector. Unlike previous works which usedDetic [7], we chose OWL-ViT [8] as the object detector since we found it to perform better in preliminary queries 照顾者在每一帧上应用检测器,并索求每个对象规模框、CLIP 镶嵌、检测器置信度,并将它们传递到导航模块的物体存储模块中We applythe detector on every frame, and extract each of the objectbounding box, CLIP-embedding, detector confidence, and passthem onto the object memory module of our navigation module 在之前的责任基础上,咱们进一步将规模框细化为使用Segment Anything(SAM)的对象掩码Building on top of previous work [27], we further refinethe bounding boxes into object masks with Segment Anything(SAM) [28]然后进行以物体为中心的语义存储(Object-centric semantic memory) 本文借助 VoxelMap(访佛于Clip-Fields和OVMM的以物体为中心的系念) 来完成这一步(We use an object-centricmemory similar to Clip-Fields [27] and OVMM [25] that wecall the VoxelMap) 具体来说,物体掩模是通过深度图像和相机采集的姿态反投影到果然天下坐标系中,从而生成一个点云。每个点都与来自CLIP的关联语义向量相干联。然后,咱们将点云以5厘米分辨率进行立体像素(简称体素)化,并对每个体素盘算属于该体素的CLIP镶嵌检测器置信度加权平均值。这个体素图组成了咱们物体系念模块的基础The object masks are back-projected inreal-world coordinates using the depth image and the pose collected by the camera, giving us a point cloud where each point has an associated semantic vector coming from CLIP.

Then, we voxelize the point cloud to a 5 cm resolution and for each voxel, calculate the detector-confidence weighted average for the CLIP embeddings that belong to that voxel. This voxel map builds the base of our object memory module. 

之后是查询系念模块(Querying the memory module):当给定一个话语查询时,使用CLIP话语编码器将其转化为语义向量(Given a language query, we convertit to a semantic vector using the CLIP language encoder) 然后,咱们寻找使编码向量和立体像素语义默示(the voxel’s semantic representation)之间点积最大化的顶部体素。由于每个体素都与家中的果然位置研究联,访佛于下图(a),这使得咱们能够找到最有可能匹配查询对象所在的场合Then,we find the top voxel where the dot product between the encoded vector and the voxel’s semantic representation is maximized. Since each voxel is associated with a real locationin the home, this lets us find the location where a queriedobject is most likely to be found, similar to Figure 2(a)

图片

必要时,本文将「A on B」实施为「A close B」。为此,查询 A 选拔前 10 个点,查询 B 选拔前 50 个点。然后盘算 10×50 成对欧氏距离,并选拔与最短 (A, B) 距离相干的 A 点。

完成上述过程,接下来即是导航到现实天下中的对象:一朝得到了现实天下中的 3D 位置坐标,就不错将其用作机器东谈主的导航标的来运行化操作阶段。导航模块必须将机器东谈主扬弃在手臂可触到的范围,以便机器东谈主随后不错主宰标的物体

为了从空间中的任何其他点安全地导航到标的点,简言之,通过利用之前拿获的RGB-D图像构建梗阻物舆图,比如创建了一个2D网格,每个单位大小为10cm×10cm,然后使用A*算法进行导航,具体而言

为了将体素图转化为梗阻物图,咱们设定了地板和天花板高度,并将被占据的体素视为已占据的网格单位,而莫得天花板或地板体素则默示未探索的网格单位 咱们将被占据或未探索的单位鲜艳为不可导航区域 在每个被占据点周围20厘米范围内的统共点也被鲜艳为不可导航区域,以斟酌机器东谈主本人至极旋转半径在A*算法中,咱们使用s3函数动作节点资本启发式来隔离任何梗阻物进行旅途贪图,这使得生成旅途与渴望Voronoi旅途相似 4.2.2 机器东谈主对现实天下物体的抓持

与绽放词汇导航不同,为了完成抓取任务,算法需要与现实天下中的随心对象进行物理交互,这使得这部分变得愈加认真。因此,本文选拔使用预西席的抓取模子来生成现实天下中的抓取姿态,并使用 VLM 进行话语要求过滤

本文使用的抓取生成模块是 AnyGrasp,它在给定单个 RGB 图像和点云的场景中使用平行缄口夹具生成无碰撞抓取

图片

AnyGrasp 提供了场景中可能的抓持,如上图第2列所示,包括抓持点、宽度、高度、深度和抓持分数,该分数默示每次抓持中未校准的模子置信度使用话语查询过滤抓持:对于从 AnyGrasp 取得的抓持建议,本文领受 LangSam 过滤抓持。本文将统共建议的抓持点投影到图像上,并找到落入对象掩模的抓持点(上图第 4 列)抓持践诺。一朝细则了最好抓持(上图第5列),就不错使用浅易的预抓持方法来抓持标的对象 4.2.3 开释或扬弃对象的启发式模块

抓持对象后,接下来即是将对象扬弃在什么场合。与 HomeRobot 的基线杀青不同,该方法假定物体放下的位置是一个平坦的名义,本文进行了扩展,还涵盖了凹物体,如水槽、箱子、盒子和袋子。

至此,导航、抓持和扬弃都有了,之后就不错径直将它们组合起来,该方法不错径直应用于任何新的家庭。对于新的家居环境,该照顾不错在一分钟内扫描房间。然后,只需不到五分钟即可将其处理到 VoxelMap 中。一朝完成,机器东谈主就不错立即扬弃在遴选的形式并首先运行。从到达一个全新的环境到首先在其中自主操作,该系统平均需要不到 10 分钟即可完成第一个取放任务

// 待更女教师日记

第五部分  Figure东谈主形机器东谈主 5.1 史无先例:Figure东谈主形机器东谈主的惊艳时刻 5.2 机器东谈主与东谈主类畅达对话并畅达干活背后的旨趣

Figure 的创举东谈主 Brett Adcock 和 AI 团队的负责东谈主 Corey Lynch 在 X 上讲解注解了这次视频中机器东谈主互动背后的旨趣

这次的冲突,由 OpenAI 与 Figure 共同作念出。OpenAI 提供负责提供视觉推理和话语领路,而 Figure 的神经蚁合提供快速、低水平、奢睿的机器东谈主动作

机器东谈主所作念出的统共步履都是出于依然学习过,内化了的才能,而不是来自辛勤操作

统共这个词进程为:图像 + speech to text =》VLM继承并作念概述处理 =》NNP输出践诺政策 =》 WBC践诺政策且将VLM处理得到的response speak出来,具体则如下

图片

照顾东谈主员将机器东谈主录像头中的图像输入(Figure 的机载录像头以 10hz 的频率拍摄图像),和机载麦克风拿获的语音中的文本转录到由 OpenAI 西席的,不错领路图像和文本的多模态模子(VLM)中 由该VLM模子处理对话的统共这个词历史纪录,且对于接下来要采取什么动作干活已有随机的贪图然后通过Neural Network Policies细化「VLM给定的随机贪图」,得到更具体的动作政策(决定在机器东谈主上运行哪些学习到的闭环步履来完成给定的敕令)临了,一方面将特定的神经蚁合权重加载到 GPU 上并践诺政策(相配于Whole body controller) 二方面 通过VLM处理得到的话语反馈通过文本到语音的方式将其speak给东谈主类

这亦然为什么这个机器东谈主,属于「端到端」的机器东谈主限制。从话语输入首先,模子禁受了一切处理,径直输出话语和步履收尾,而不是中间输出一些收尾,再加载其他要领处理这些收尾

5.2.1 OpenAI的VLM模子:领路环境 + 东谈主类的理论任务 + 基本的知识和荆棘文系念才能

OpenAI 的模子的多模态才能,是机器东谈主不错与天下交互的环节,咱们能够从视频中展示中看到许多访佛的片刻,比如:

描摹一下它的周围环境作念出决定时使用知识推理。例如,「桌子上的盘子和杯子等餐具接下来很可能会插足晾衣架」比如在视频中,当东谈主说“我饿了”,Figure想考了2-3秒后(因为语音识别、假话语模子、TTS是通过pipeline方式连起来的,都需要盘算时间),小心翼翼地伸手收拢苹果,并速即给东谈主递过来 因为Figure基于假话语模子的知识,明白苹果是它面前唯独不错“吃”的事物,在东谈主类莫得任何指示和讲解的前提下,即不错接近于东谈主类的反应速率,与东谈主自然交互 相配于有了大模子的支持,让该机器东谈主具备了一定的知识比如视频中展示的「你能把它们放在那里吗?」「它们」指的是什么?「那里」又在那里?正确回话需要反想系念的才能(能够领有短期系念的背后收获于大模子的长荆棘文的领路才能,使得不错精确抓取长荆棘文里的指代关系) 5.2.2 机器东谈主操控小模子(访佛Google的RT-1):输出action

而具体的双手动作,不错分红两步来领路:

最初,互联网预西席模子对图像和文本进行知识推理,以得出高档谋略。如视频中展示的:Figure 的东谈主形机器东谈主快速酿成了两个谋略: 1)将杯子放在碗碟架上,2)将盘子放在碗碟架上其次,一个基于neutral network的机器东谈主操控小模子以 200hz 的频率(RT-2论文里提到的决策频率则惟有1到5hz)生成的 24-DOF 动作(手腕姿势和手指关节角度),充任高速「设定点(setpoint)」,供更高速率的全身限制器追踪。全身限制器确保安全、踏实的能源,如保持均衡

统共步履均由Transformer 政策驱动(比如mobile aloha所用过的ACT算法,本色是一个效法学习),将像素径直映射到动作

外出问问的李志飞以为

图片

Figure 01的统共这个词框架访佛于PaLM-E和RT-1的pipeline组合,即分两步:多模态模子把复杂的自然话语指示剖释为浅易指示后,继而调用机器东谈主的操控系统(访佛Google的RT-1)践诺相应的动作而非RT-2,因为RT-2中间不再需要将其转动成浅易指示,通过自然话语就可得到最终的 Action,算是一个 VLA(Vision-Language-Action Model)模子 相配于RT-2全程就一个模子,但Figure 01如故组合了OpenAI的VLM + Figure公司的机器东谈主操控小模子 RT-2的自制在于作念到了信得过的端到端 笔据输入径直得到输出action(莫得Figure 01中的机器东谈主操控小模子),坏处是践诺速率有限,故没法作念到200hz的决策速率 第六部分 清华推出机器东谈主操控框架CoPa 6.1 清华具身智能CoPa,跳跃之前李飞飞团队的VoxPoser

3月下旬,清华交叉信息照顾院的一团队通过这篇论文《CoPa: General Robotic Manipulation through Spatial Constraints of Parts with Foundation Models》提议了名为CoPa的机器东谈主操控框架,其利用镶嵌在基础模子中的知识知识(比如视觉话语模子的代表GPT-4V)为绽放天下机器东谈主操控生成一系列6摆脱度结尾践诺器姿势

具体而言,将操控过程剖释为两个阶段:

任务导向抓取,访佛抓到锤柄 使用视觉话语模子(VLMs) 比如GPT4-V,通过一种新颖的粗到细的定位机制选拔对象的抓取部件(这句话的趣味访佛,好比东谈主拿一个锤子去钉钉子时,是知谈用手去拿锤子的锤柄,而非锤头)任务感知劝诱贪图,访佛拿打击面瞄准钉子 再次利用VLMs来识别与任务相干的对象部件的空间几何气象(或贬抑),然后用于推导抓取后的姿势 6.1.1 机器东谈主基础模子:用于举座任务贪图

比年来,基础模子依然极大地改变了机器东谈主领域的阵势[Toward general-purpose robots via foundation models: A survey and meta-analysis]。 许多照顾领受在大范围图像数据集上进行预西席的视觉模子,用于生成视觉表征以进行视觉劝诱限制任务[比如A universal semanticgeometric representation for robotic manipulation、The unsurprising effectiveness of pre-trained vision models for control、Real-world robot learning with masked visual pre-training,” in Conference on Robot Learning等等]

其他一些照顾利用基础模子来端正强化学习中的奖励[Vip: Towards universal visual reward and representation via value-implicit pre-training、Eureka: Humanlevel reward design via coding large language models、Learning reward functions for robotic manipulation by observing humans、Zero-shot reward specification via grounded natural language、Can foundation models perform zero-shot task specification for robot manipulation?、Liv: Language-image representations and rewards for robotic contro]

此外,许多照顾利用基础模子进行机器东谈主高层贪图,取得了权贵的告捷,比如

Do as i can, not as i say: Grounding language in robotic affordancesGrounded decoding: Guiding text generation with grounded models for robot controlLook before you leap: Unveiling the power of gpt-4v in robotic vision-language planningProgprompt: Generating situated robot task plans using large language modelsPhysically grounded vision-language models for robotic manipulationTask and motion planning with large language models for object rearrangementLanguage models as zero-shot planners: Extracting actionable knowledge for embodiedagentsText2motion: From natural language instructions to feasible plansLlm+ p: Empowering large language models with optimal planning proficiencyRobots that ask for help: Uncertainty alignment for large language model plannersLlm-planner: Few-shot grounded planning for embodied agents with large language modelsTidybot: Personalized robot assistance with large language models

自然了,也还有一些照顾利用基础模子进行低层限制[比如Google的RT-1、RT-2、Open x-embodiment: Robotic learning datasets and rt-x model、Octo: An open-source generalist robot policy

此外,一些照顾对视觉话语模子VLMs进行微调,径直输出机器东谈主动作。 然则,这种微调方法需要广泛的大家数据,为了处治这个问题

Code as Policies [Code as policies: Language model programs for embodied control]使用大型话语模子LLMs编写限制机器东谈主的代码而VoxPoser[16]通过基础模子生成机器东谈主轨迹,产生基于基础模子的值图

然则,这些方法依赖于复杂的指示工程,况兼对场景惟有约略的领路。 与之酿成显豁对比的是,CoPa通过合理利用视觉话语模子中的知识知识,对场景有着精细入微的领路,况兼能够扩张到绽放天下的场景,无需颠倒的西席,只需要最少的指示工程

6.1.2 机器东谈主操控模子:用于精确限制

机器东谈主操控是机器东谈主领域中一个环节且具有挑战性的方面

广泛的照顾利用大家演示的效法学习IL来取得操控手段(比如Google的RT-1、RT-2等等) 尽管效法学习在看法上很浅易,况兼在平日的果然天下任务中取得了权贵的告捷,但它在处理散播不匹配的样本时存在认真,况兼需要广泛的大家数据收罗责任强化学习(RL)是另一种主要方法[比如Do as i can, not as i say、Imitation learning from observation with automatic discount scheduling、End-to-end training of deep visuomotor policies]使机器东谈主能够通过与环境的试错交互来发展操控手段 然则,RL的样本效力放肆了它在果然天下环境中的适用性,导致大多数机器东谈主系统依赖于从仿真到果然的转移[比如Sim-to-real reinforcement learning for deformable object manipulation、Self-supervised sim-to-real adaptation for visual robotic manipulation] 而从仿真到果然的方法需要构建特定的仿真器,并濒临仿真到果然之间的差距此外,通过这些端到端学习方法学习的政策时时缺少对新任务的泛化才能。 比较之下,通过利用基础模子的知识知识,CoPa不错在绽放天下场景中杀青泛化,而无需颠倒的西席 6.2 物体抓取与劝诱贪图

翻开抽屉需要收拢把手并沿直线拉动,而提起水杯则需要先收拢杯子然后抬起来。受到这一不雅察的启发,将方法分为两个模块:

面向任务的抓取 给定话语指示

图片

 和运行场景不雅察

图片

 (RGB-D图像),在面向任务的抓取模块中的标的是为指定的感意思意思对象生成相宜的抓取姿态,该过程默示为

图片

,并将机器东谈主到达

图片

后的不雅察默示为

图片

任务感知的劝诱贪图 对于任务感知的劝诱贪图模块,咱们的标的是得出一系列抓取后的姿态,默示为

图片

,其中

图片

是完成任务所需的姿态总额。 在获取标的姿态之后,机器东谈主的结尾践诺器不错利用劝诱贪图算法(如RRT* [50]和PRM* [51])到达这些姿态 6.2.1 任务导向的抓取:SoM + GPT-4V + 准细则位物体被抓部位

物体的运行抓取的统共这个词过程如下所示

最初使用SoM对场景中的物体进行分割和鲜艳然后,结合指示,咱们使用GPT-4V选拔抓取/任务相干的物体临了,访佛的细粒度部件定位被应用于定位特定的抓取/任务相干部位

最初,领受一种称为Set-of-Mark (SoM) [55]的最新视觉指示机制,其利用分割模子将图像分割成不同的区域,并为每个区域分派一个数字鲜艳(即在粗粒度对象定位阶段,使用SoM在对象级别上检测和鲜艳场景中的统共对象)

其次,访佛东谈主类笔据预期使用方式抓取物体的特定部件(例如,当用刀切割时,咱们持住刀柄而不是刀刃;相似,提起眼镜时,咱们收拢镜框而不是镜片。这个过程实质上代表了东谈主类运用知识的才能),CoPa利用视觉话语模子(VLMs),如GPT-4V [https://cdn.openai.com/papers/GPTV_System_Card.pdf],它们交融了广泛的知识知识[Look before you leap:Unveiling the power of gpt-4v in robotic vision-language planning],[Sage: Bridging semantic and actionable parts for generalizable articulated-object manipulation under language instructions],以细则抓取物体的相宜部位

图片

临了,为了生成任务导向的抓取姿势,咱们的方法最初使用抓取模子生成抓取姿势提案,并通过咱们的新颖抓取部件基准模块筛选出最可行的一个

图片

那如何生成抓取姿势的提案呢?简言之,利用预西席的抓取模子生成抓取姿势提案,具体而言

最初通过将RGB-D图像反投影到3D空间中将其转化为点云然后将这些点云输入到GraspNet [Graspnet-1billion: A largescale benchmark for general object grasping]中,这是一个在包含跳跃十亿个抓取姿势的大型数据集上西席的模子。 GraspNet输出6摆脱度的抓取候选项,包括抓取点的信息、宽度、高度、深度和“抓取得分”,该得分默示告捷抓取的可能性然则,鉴于GraspNet在场景中产生了统共潜在的抓取,咱们有必要使用一个选拔性的过滤机制来选拔笔据话语指示所述的具体任务选拔最好的抓取方式

总之,回想上述统共这个词过程,可知分为以下三步

VLMs的任务是笔据用户的指示来细则标的对象进行抓取(例如,一个锤子)然后,从图像中编订出所选对象,并应用细粒度部件定位来细则要抓取的具体部位(例如,锤子的把手)。 这种由粗到细的联想赋予了CoPa对复杂场景的细粒度物理领路才能,杀青了泛化临了,咱们过滤抓取姿势候选,将统共抓取点投影到图像上,并仅保留在抓取部件掩码内的点。 从中选拔GraspNet评分最高的姿势动作最终的践诺抓取姿势

图片

6.2.2 任务感知的劝诱贪图

在告捷践诺面向任务的抓取后,面前的标的是取得一系列抓取后的姿态。 可将这一设施分为三个模块:

图片

与任务相干的部件定位 与之前的抓取部件定位模块访佛,咱们使用粗粒度的物体定位和细粒度的部件定位来定位与任务相干的部件 在这里,需要识别多个与任务相干的部件(例如锤子的打击面、手柄和钉子的名义)。 此外,不雅察到机器东谈主手臂上的数字鲜艳可能会影响VLM的选拔,因此过滤掉了机器东谈主手臂上的鲜艳操控贬抑生成 在践诺任务的过程中,与任务相干的物体往往受到多样空间几何贬抑的放肆。 例如,充电手机时,充电器的市欢器必须与充电口对都;相似,盖子必须径直放在瓶口上方才能盖上瓶子。 这些贬抑本色上需要知识知识,包括对物体物理属性的深切领路。 咱们旨在利用VLM生成被操控对象的空间几何贬抑标的姿态贪图 6.3 与23年李飞飞团队VoxPoser的对比

图片

6.4 面前CoPa的局限与不及 最初,CoPa处理复杂对象的才能受到其依赖的simplistic geometric elements(如surfaces and vector)的放肆CoPa’s capability to process complex objects is con-strained by its reliance on simplistic geometric elements such as surfaces and vector 通过将更多的几何元素纳入咱们的建模过程,不错改善这一丝其次,面前使用的VLMs是在大范围2D图像上进行预西席的,缺少对3D物理天下的果然基础。这个放肆影响了它们进行准确的空间推理的才能 若将3D输入(如点云)整合到VLMs的西席阶段中,不错缓解这个挑战临了,现存的VLMs只产生闹翻的文本输出,而咱们的框架推行上需要一语气的输出值,如物体部件的坐标the existing VLMs produce only discrete textual outputs, where as our framework essentially necessitates continuous output values, like the coordinates of object parts 劝诱具备这些才能的基础模子仍然是一个备受期待的进展

// 待更

参考文件与保举阅读 李飞飞「具身智能」新效果!机器东谈主接入大模子径直听懂东谈主话,0预西席就能完成复杂指示 VoxPoser论文一作在Twitter上发的对于VoxPoser的视频:https://twitter.com/wenlong_huang/status/1677375515811016704谷歌AGI机器东谈主大招!54东谈主天团憋7个月,强泛化强推理,DeepMind和谷歌大脑团结后新效果,RT-2买个机器东谈主端茶倒水有但愿了?Meta、纽约大学造了一个OK-Robot机器东谈主领域首个开源视觉-话语操作大模子,RoboFlamingo框架引发开源VLMs更大潜能 要是某些点与本文冲突,请以本文为准,本文更严谨、准确只用 13 天,OpenAI 作念出了能听、能说、能自主决策的机器东谈主大模子国内创业者和投资东谈主如何看待 Figure 01 机器东谈主:距离具身智能还有多远?OpenAI 和 Figure 机器东谈主背后的技艺旨趣是什么?OpenAI莫得铲除的机器东谈主空想 | 甲子光年斯坦福家务机器东谈主Mobile ALOHA的环节技艺:动作分块算法ACT的原领路析一句指示就能冲咖啡、倒红酒、锤钉子,清华具身智能CoPa「动」手了叠一稔、擦案板、冲果汁,能作念家务的国产机器东谈主终于要来了,来自X Square2个月不见,东谈主形机器东谈主Walker S会叠一稔了,来自优必选 + 百度文心一言 本站仅提供存储管事,统共内容均由用户发布,如发现存害或侵权内容,请点击举报。