立体多级空间注意力用于视觉尺度变化与干扰下的实时移动操作

📝 论文摘要

在开放、非结构化的真实世界环境中运行的机器人，必须依赖机载视觉感知系统同时自主移动至不同位置。机载摄像头视点的持续变化会导致目标物体出现显著的视觉尺度变化，进而影响基于视觉的运动生成。本文提出了一种基于立体多级空间注意力的深度预测学习方法，用于实时移动操作。该方法从立体图像中提取与任务相关的空间注意力点，通过分层循环架构与机器人状态进行融合，实现闭环动作预测。我们使用移动机械臂在四项真实世界移动操作任务中评估系统性能，包括刚性放置、铰接物体操作和可变形物体交互。在随机初始位置和视觉干扰条件下的实验表明，与相同控制设置下具有代表性的模仿学习及视觉-语言-动作基线方法相比，该方法在鲁棒性和任务成功率方面均有提升。研究结果表明，结构化立体空间注意力结合预测性时序建模可为所评估的移动操作场景提供有效解决方案。

🎯 研究动机

- 移动机器人在开放非结构化环境中自主移动时，**机载相机视角变化** 导致目标物体**视觉尺度变化(visual scale variation)**，严重影响基于视觉的运动生成 - 现有**模仿学习(imitation learning)** 和**视觉-语言-动作(Vision-Language-Action, VLA)** 方法对实时视觉干扰和尺度变化的鲁棒性不足 - 机器人需要依赖机载视觉感知实现实时移动操作，但连续视角变化造成目标特征不稳定，传统方法难以适应

🔧 核心方法

- 提出一种**立体多阶段空间注意力(stereo multistage spatial attention)** 与**深度预测学习(deep predictive learning)** 相结合的方法 - 从**立体图像(stereo images)** 中提取与任务相关的空间注意力点，通过**层次循环架构(hierarchical recurrent architecture)** 将注意力点与机器人状态进行融合 - 采用**闭环动作预测(closed-loop action prediction)** 机制，利用历史时空信息动态生成下一时刻的动作指令

💡 核心创新

- **首次** 将**立体多阶段空间注意力** 应用于移动操作领域，能够在视觉尺度变化和干扰下稳定提取任务关键特征 - 设计了**层次循环架构**，实现了空间注意力点与机器人状态的深度融合，增强了**时域预测能力(temporal prediction)** - 与现有模仿学习和VLA基线相比，在相同控制设置下，对**随机初始位置** 和**视觉干扰** 具有更强的鲁棒性，显著提升成功率

🏆 总体贡献

- 为**实时移动操作(real-time mobile manipulation)** 提供了一种**结构化立体空间注意力+预测时域建模** 的有效范式 - 在**四项真实世界任务** （刚性放置、铰接物体操作、可变形物体交互）上进行了系统评估，验证了方法的通用性 - 相比代表性基线方法，在视觉尺度变化和干扰下实现了更高的**任务成功率(task success rate)**，推动了移动操作在实际场景中的部署

立体多级空间注意力用于视觉尺度变化与干扰下的实时移动操作
Stereo Multistage Spatial Attention for Real-Time Mobile Manipulation Under Visual Scale Variation and Disturbances

📊 核心分析

立体多级空间注意力用于视觉尺度变化与干扰下的实时移动操作 Stereo Multistage Spatial Attention for Real-Time Mobile Manipulation Under Visual Scale Variation and Disturbances

📊 核心分析

立体多级空间注意力用于视觉尺度变化与干扰下的实时移动操作
Stereo Multistage Spatial Attention for Real-Time Mobile Manipulation Under Visual Scale Variation and Disturbances