炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!
(来源:机器之心Pro)

机器人操作模型虽然在语义理解上取得巨大成功,但往往被困在2D图像的「错觉」中。现有的机器人操作模型主要依赖2D图像作为输入,这意味着它们容易丢失关键的深度信息和3D几何结构。
具体而言,基于点云的方法受限于稀疏采样,导致细粒度语义信息的丢失;基于图像的方法通常将RGB和深度信息输入到在3D辅助任务上训练的2D骨干网络中,但它们纠缠在一起的语义和几何特征对现实世界中固有的深度噪声非常敏感,从而干扰了语义理解。
图1:不同方法的对比针对这一痛点,Dexmal原力灵机作者团队提出SpatialActor,该工作核心在于「解耦」(Disentanglement):它不再将视觉信息混为一谈,而是明确地将语义信息(这是什么?)与空间几何信息(它在哪里?形状如何?)分离开来,从而实现语义流与空间流的双流解耦与后期融合。
作者通过引入显式的3D空间编码器,并将其与强大的视觉语言模型结合,使机器人不仅能「读懂」指令,更能「感知」三维空间。作者在包含50多个任务的多个仿真和真实世界场景中评估了SpatialActor。它在RLBench上取得了87.4%的成绩,达到SOTA水平;在不同噪声条件下,性能提升了13.9%至19.4%,展现出强大的鲁棒性。目前该论文已被收录为AAAI2026Oral,并将于近期开源。

方法与架构
作者认为,机器人操作本质上需要两种能力的协同:一是对任务目标的语义理解(由VLM提供),二是对环境几何的精确把控(由3D表征提供)。SpatialActor并没有试图训练一个全能的端到端网络,而是采用了一种「双流解耦-融合」的架构设计。
整体架构
图2:SpatialActor架构概览该架构采用了独立的视觉与深度编码器。语义引导几何模块(SGM)通过门控融合机制,将来自预训练深度专家的鲁棒但缺乏细粒度信息的几何先验与含噪但有逐像素细节的深度特征自适应地结合,从而生成高层几何表征。
在空间Transformer(SPT)中,低层空间线索被编码为位置嵌入,用以驱动空间交互。最后,视图级交互优化了视图内的特征,而场景级交互则整合了跨视图的跨模态信息,为后续的动作头提供支持。
语义引导几何模块(SGM)
由于传感器的局限性和环境干扰,现实世界的深度测量往往含有噪声,而RGB图像则能提供高信噪比的语义线索。大规模预训练深度估计模型学习到了平滑的“语义到几何”映射,能够提供鲁棒且通用的几何先验。相比之下,原始深度特征虽然保留了细粒度的像素级细节,但对噪声高度敏感。
为此,SGM模块通过一个冻结的大规模预训练深度估计专家模型从RGB输入中提取鲁棒但粗粒度的几何先验,同时利用深度编码器从原始深度中提取细粒度但含噪的几何特征。如图3(a)所示,SGM模块通过一个多尺度门控机制自适应地融合这些特征,从而生成优化后的几何表征;该表征在保留细微细节的同时降低了噪声,并与语义线索保持对齐。
图3:语义引导几何模块和空间Transformer空间Transformer(SPT)
如图3(b)所示,SPT模块旨在建立精确的2D至3D映射并融合多模态特征,是生成精准动作的关键。首先,模块将视觉得到的空间特征与机器人本体感知信息(如关节状态)融合。利用相机内外参矩阵和深度信息,模型将图像像素坐标转换为机器人基座坐标系下的三维坐标,并采用旋转位置编码技术将这些三维几何信息嵌入特征中,赋予其低层的空间感知。
在特征交互层面,SPT依次执行视图级和场景级注意力机制:前者优化单视图内部表征,后者聚合所有视图与语言指令特征,实现跨模态的全局上下文融合。最终,解码器通过预测热力图确定动作的三维平移位置,并基于该位置的局部特征回归计算旋转角度和夹爪开闭状态,完成端到端的动作生成。
实验结果
为了全面评估SpatialActor的有效性,作者在仿真和真实世界环境中均开展了实验,既比较其与当前最先进方法的表现,也考察其在噪声干扰下的鲁棒性,并进一步验证其在真实机器人上的实际表现。
仿真基准测试结果

表1:RLBench仿真测试结果
作者给出了SpatialActor在18个RLBench任务及其249种变体上的成功率。SpatialActor取得了最佳的整体性能,超越了此前的SOTA模型RVT-26.0%。值得注意的是,在诸如InsertPeg(插销钉)和SortShape(形状分类)等需要高空间精度的任务中,SpatialActor的表现分别优于RVT-253.3%和38.3%。
不同程度噪声下的表现

表2:不同程度噪声下的表现
在噪声实验中,作者通过加入不同强度的高斯扰动模拟噪声。结果表明,无论是轻度、中度还是重度噪声,SpatialActor的表现都始终明显优于RVT-2,平均成功率分别提升13.9%、16.9%和19.4%。在诸如InsertPeg(插销钉)这类需要高精度对位的任务中,这一差距更为突出,在三档噪声下分别高出88.0%、78.6%和61.3%,展现出对噪声干扰的强鲁棒性。
真机实验结果
图4:真机任务在真机实验中,作者使用一台配备IntelRealSenseD435iRGB-D相机的WidowX单臂机器人;并采用8个不同的任务,共计15种变体。

表6:真机结果
真机实验结果如表6所示,SpatialActor的表现持续优于RVT-2,各任务平均提升约20%,证明其在真实场景中的有效性。为了评估针对分布变化的鲁棒性,作者在被操作物体、接收物体、光照和背景发生变化的情况下对SpatialActor进行了测试。在这些多样且极具挑战性的条件下,SpatialActor始终保持了高水平表现,有力证明了其在复杂真实世界场景中的强大鲁棒性与泛化能力。
结论
在本文中,作者提出了SpatialActor,这是一个用于机器人操作的鲁棒空间表征框架,旨在解决精确空间理解、传感器噪声以及有效交互带来的挑战。SpatialActor将语义信息与几何信息进行了解耦,并将几何分支划分为高层和低层两个组件:SGM将语义引导的几何先验与原始深度特征自适应融合,以构建鲁棒的高层几何;而SPT则通过位置感知交互捕捉低层空间线索。
在50多个仿真和真实世界任务上进行的广泛实验表明,SpatialActor在多样化的条件下均取得了更高的成功率和强大的鲁棒性。这些结果凸显了解耦的空间表征对于开发更加鲁棒且具备泛化能力的机器人系统的重要性。
附论
机器人操作可以分解为两个维度:空间感知与时序理解。前者关注如何将视觉与语言映射为精确的6-DoF位姿,实现对当前场景的物理Grounding;后者则需要基于当前与过往的历史状态,连续做出多个决策以完成长期目标。

但是,真实世界的操作并非静态的空间问题,而是贯穿时间的连续过程。机器人不仅要抓得准,还必须记得住之前的关键状态,才能在长程任务中真正抓得对。这使得记忆机制成为连接空间操作与长程决策的关键能力。
受人类大脑「工作记忆」与「海马体」记忆机制的启发,作者团队还提出了MemoryVLA,创新性地引入「感知-认知记忆」到VLA,在决策时智能地从记忆库中「回忆」相关历史信息,实现时序感知的决策。更多信息可以参考:
海量资讯、精准解读,尽在新浪财经APP
未经允许不得转载:头条资讯网_今日热点_娱乐才是你关心的时事 » SpatialActor通过解耦语义与几何,为具身智能注入强鲁棒空间基因
头条资讯网_今日热点_娱乐才是你关心的时事








