- 机器人操作任务需要推理未来的**时空交互(spatial-temporal interactions)**,但现有**视觉-语言-动作(Vision-Language-Action, VLA)** 策略和**世界模型增强(world-model-enhanced)** 策略未能充分建模与动作相关的时空交互结构
- 当前方法在处理高动态、几何依赖的操控场景时表现不足,缺乏对动作与未来时空状态之间因果关系的显式建模
- 提出**STARRY** 框架,一种**世界模型增强的动作生成策略(world-model-enhanced action-generation policy)**,通过联合去噪(joint denoising)同时预测**未来时空隐变量(future spatial-temporal latents)** 和**动作序列(action sequences)**
- 引入**几何感知选择性注意力调制(Geometry-Aware Selective Attention Modulation, GSAM)**,将预测的**深度图(depth)** 和**末端执行器几何(end-effector geometry)** 转换为与令牌对齐的权重,对动作注意力进行选择性调制
- **首创性**:首次将**时空世界模型(spatial-temporal world model)** 与**动作生成(action generation)** 进行联合对齐,实现**动作中心的时空预测(action-centric spatial-temporal prediction)**
- **几何引导注意力(geometry-guided attention)**:利用3D几何信息(深度与末端执行器形状)动态调整注意力权重,使模型更关注与动作相关的时空区域
- **联合去噪范式(joint denoising paradigm)**:在扩散框架下同步去噪未来状态隐变量和动作,避免因异步建模导致的时空信息损失
- 在**RoboTwin 2.0** 基准上,**干净(Clean)** 和**随机(Randomized)** 设置下平均成功率分别达到93.82%和93.30%,显著超越现有方法
- 真实世界实验中,将基线方法**π₀.₅** 的平均成功率从42.5%提升至70.8%,验证了**动作中心时空世界模型(spatial-temporal world model)** 对高时空要求任务的泛化与鲁棒性
- 为机器人操作领域提供了一种**结合几何先验(geometry prior)与扩散模型(diffusion model)** 的新型范式,推动**世界模型增强策略(world-model-enhanced policy)** 在精细操控中的应用