← 返回论文列表

STARRY:面向机器人操作的以动作为中心的时空世界建模
STARRY: Spatial-Temporal Action-Centric World Modeling for Robotic Manipulation

作者: Yuxuan Tian, Yurun Jin, Bin Yu 等8人
arXiv: 2604.26848v1
分类: cs.RO
📝 论文摘要
机器人操作关键需要推理未来的时空交互,然而现有的VLA策略和世界模型增强策略并未充分建模与动作相关的时空交互结构。我们提出STARRY,一种世界模型增强的动作生成策略,将时空预测与动作生成对齐。STARRY联合去噪未来时空潜在特征和动作序列,并引入几何感知选择性注意力调制,将预测的深度和末端执行器几何结构转化为令牌对齐的权重,用于选择性动作注意力调制。在RoboTwin 2.0上,STARRY在清洁和随机设置下分别达到93.82%和93.30%的平均成功率。真实世界实验进一步将平均成功率从π_{0.5}的42.5%提升至70.8%,证明了以动作为中心的时空世界建模对于高时空要求机器人动作生成的有效性。

📊 核心分析

🎯 研究动机
- 机器人操作任务需要推理未来的**时空交互(spatial-temporal interactions)**,但现有**视觉-语言-动作(Vision-Language-Action, VLA)** 策略和**世界模型增强(world-model-enhanced)** 策略未能充分建模与动作相关的时空交互结构 - 当前方法在处理高动态、几何依赖的操控场景时表现不足,缺乏对动作与未来时空状态之间因果关系的显式建模
🔧 核心方法
- 提出**STARRY** 框架,一种**世界模型增强的动作生成策略(world-model-enhanced action-generation policy)**,通过联合去噪(joint denoising)同时预测**未来时空隐变量(future spatial-temporal latents)** 和**动作序列(action sequences)** - 引入**几何感知选择性注意力调制(Geometry-Aware Selective Attention Modulation, GSAM)**,将预测的**深度图(depth)** 和**末端执行器几何(end-effector geometry)** 转换为与令牌对齐的权重,对动作注意力进行选择性调制
💡 核心创新
- **首创性**:首次将**时空世界模型(spatial-temporal world model)** 与**动作生成(action generation)** 进行联合对齐,实现**动作中心的时空预测(action-centric spatial-temporal prediction)** - **几何引导注意力(geometry-guided attention)**:利用3D几何信息(深度与末端执行器形状)动态调整注意力权重,使模型更关注与动作相关的时空区域 - **联合去噪范式(joint denoising paradigm)**:在扩散框架下同步去噪未来状态隐变量和动作,避免因异步建模导致的时空信息损失
🏆 总体贡献
- 在**RoboTwin 2.0** 基准上,**干净(Clean)** 和**随机(Randomized)** 设置下平均成功率分别达到93.82%和93.30%,显著超越现有方法 - 真实世界实验中,将基线方法**π₀.₅** 的平均成功率从42.5%提升至70.8%,验证了**动作中心时空世界模型(spatial-temporal world model)** 对高时空要求任务的泛化与鲁棒性 - 为机器人操作领域提供了一种**结合几何先验(geometry prior)与扩散模型(diffusion model)** 的新型范式,推动**世界模型增强策略(world-model-enhanced policy)** 在精细操控中的应用