当我们拿起一个机械手表时,从正面会看到表盘和指针,从侧面会看到表冠和表链,打开手表背面会看到复杂的齿轮和机芯。每个视角都提供了不同的信息,将这些信息综合起来才能理解操作对象的整体三维。
想让 机器人在现实生活中学会执行复杂任务 ,首先需要 使机器人理解操作对象和被操作对象的属性 ,以及 相应的三维操作空间 ,包括物体位置、形状、物体之间的遮挡关系,以及对象与环境的关系等。
其次,机器人需要理解自然语言指令,对未来动作进行长期规划和高效执行。使机器人具备从环境感知到动作预测的能力是具有挑战性的。
近期, 中国电信人工智能研究院(TeleAI)李学龙教授 团队联合 上海人工智能实验室、清华大学 等单位, 模拟人「感知—记忆—思维—想象」的认知过程 ,提出了多视角融合驱动的通用具身操作算法,为机器人学习复杂操作给出了可行解决方案,论文被 国际机器学习大会ICML 2024录用 ,为构建通用三维具身策略奠定了基础。
近年来,视觉基础模型对图像的理解能力获得了飞速发展。然而,三维空间的理解还存在许多挑战。能否 利用视觉大模型帮助具身智能体理解三维操作场景,使其在三维空间中完成各种复杂的操作任务 呢?受「 感知—记忆—思维—想象」的认知过程启发 ,论文提出了全新的 基于视觉分割模型Segment Anything(SAM)的具身基座模型SAM-E 。
首先,SAM- E具有强大可提示(promptable)「 感知 」能力,将SAM特有的分割结构应用在语言指令的具身任务中,通过解析文本指令使模型关注到场景中的操作物体。
随后,设计一种多视角Transformer,对深度特征、图像特征与指令特征进行融合与对齐,实现对象「 记忆 」与操作「 思考 」,以此来理解机械臂的三维操作空间。
最后,提出了一种 全新的动作序列预测网络 ,对多个时间步的动作序列进行建模,「想象」动作指令,实现了 从三维场景感知到具身动作的端到端输出 。
从二维感知到三维感知
在数字时代的浪潮中,随着人工智能技术的飞速发展,我们正逐渐迈入一个崭新的时代——具身智能时代。赋予智能体以身体,使其具备与真实世界直接互动的能力,成为了当前研究的重点方向之一。
要实现这一目标,智能体必须具备强大的三维感知能力,以便能够准确地理解周围环境。
传统的二维感知手段在面对复杂的立体空间时显得力不从心,如何让具身智能体通过学习掌握对三维空间的精准建模能力,成为了一个亟待解决的关键问题。
现有工作 通过正视图、俯视图、侧视图等等多个视角的视图还原和重建三维空间 ,然而所需的计算资源较为庞大,同时在不同场景中具有的泛化能力有限。
为了解决这个问题,本工作探索一种新的途径—— 将视觉大模型的强大泛化能力应用于具身智能体的三维感知领域 。
SAM-E提出了使用具有强大泛化能力的通用视觉大模型 SAM 进行视觉感知,通过在具身场景的高效微调,将其 具有的可泛化,可提示(promptable)的特征提取能力、实例分割能力、复杂场景理解等能力 有效迁移到具身场景中。
为了进一步优化SAM基座模型的性能,引入了动作序列网络的概念,不仅能够捕捉单个动作的预测,还能够深入理解连续动作之间的内在联系,充分挖掘动作间的时序信息,从而进一步提高基座模型对具身场景的理解与适应能力。
SAM-E方法
SAM-E方法的核心观点主要包含两个方面:
可提示感知与微调
SAM- E核心在于利用任务指令提示驱动的网络结构,包含一个强大的视觉编码器和一个轻量的解码器。
在具身场景中 任务「提示」以自然语言的形式呈现 ,作为任务描述指令,视觉编码器发挥其可提示的感知能力,提取与任务相关的特征。策略网络则充当解码器的角色,基于融合的视觉嵌入和语言指令输出动作。
在训练阶段,SAM-E 使用 LoRA 进行高效微调 ,大大减少了训练参数,使视觉基础模型能够快速适应于具身任务。
多视角三维融合
SAM-E引入了多视角Transformer网络,以融合多视角的视觉输入,深入理解三维空间。其工作分为两个阶段: 视角内注意力(View-wise Attention) 和 跨视角注意力(Cross-view Attention) 。
首先,对多视角特征分别进行视角内部的注意力处理,然后融合多个视角和语言描述进行混合视角注意力,实现多视角的信息融合和图像—语言对齐。
动作序列建模
在机械臂执行中,末端执行器的位置和旋转通常呈现出连续而平滑的变化趋势。这一特性使得相邻动作之间存在着密切的联系和连续性。基于这一观察,提出了一种新颖的时间平滑假设,旨在 充分利用相邻动作之间的内在关联,实现对动作序列的有效模仿学习 。
具体来说,SAM-E框架通过序列建模技术捕捉动作序列中的模式和关系,为动作预测提供一种隐性的先验知识,并对 动作的连续性加以约束 ,从而显著提升动作预测的准确性和一致性。
在实际应用中,SAM-E 允许在一次动作预测中执行后续的多步动作,极大地提高了执行效率。
图3.连续动作的位置和旋转变化
实验
实验使用具有挑战性的机械臂任务集合——RLBench,对多视角观测下的3D操作任务进行了全面评估,SAM-E模型在多个方面均显著优于其他传统方法。
图5.三维操作任务结果比较
此外,动作序列建模显著提高了 SAM-E 的执行效率,同时在策略执行阶段,相比于单个动作,动作序列执行显著降低了模型推理次数,测试中甚至能通过一次模型推理完成相应任务。
图7.任务执行中的模型推理频率
SAM-E在 真实机械臂控制 中同样有效,使用两个第三人称相机捕获多视角视觉输入,在五个真实任务上具有实时的推理能力。
总结
该工作开创性地提出了一种以多视角融合的基础的通用具身操作算法,利用视觉分割大模型和多视角融合实现具身智能体的三维物理空间感知。
通过高效的参数微调,将预训练视觉模型迁移到具身场景中,能够解决自然语言指令的复杂3D机械臂操作任务。此外,模型可以通过学习少量专家示例,快速泛化到新的任务中,展现出优越的训练效率和动作执行效率。
更重要的是,SAM-E以「 感知—记忆—思维—想象 」的认知链路,实现了从数据到动作的端到端映射。其意义不仅在于其在具身智能体中的应用,更在于对提升智能体认知能力的启发。
通过模拟人类的感知和决策方式,智能体能够更好地理解和适应复杂的环境,从而在更广泛的领域发挥更大的作用。
团队负责人介绍:
李学龙,中国电信CTO、首席科学家,中国电信人工智能研究院(TeleAI)院长。主要关注人工智能、临地安防、图像处理、具身智能。
原文链接:
本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载者并注明出处:https://www.jmbhsh.com/baihuo725/33250.html