- 移动机器人在开放非结构化环境中自主移动时,**机载相机视角变化** 导致目标物体**视觉尺度变化(visual scale variation)**,严重影响基于视觉的运动生成
- 现有**模仿学习(imitation learning)** 和**视觉-语言-动作(Vision-Language-Action, VLA)** 方法对实时视觉干扰和尺度变化的鲁棒性不足
- 机器人需要依赖机载视觉感知实现实时移动操作,但连续视角变化造成目标特征不稳定,传统方法难以适应
- 提出一种**立体多阶段空间注意力(stereo multistage spatial attention)** 与**深度预测学习(deep predictive learning)** 相结合的方法
- 从**立体图像(stereo images)** 中提取与任务相关的空间注意力点,通过**层次循环架构(hierarchical recurrent architecture)** 将注意力点与机器人状态进行融合
- 采用**闭环动作预测(closed-loop action prediction)** 机制,利用历史时空信息动态生成下一时刻的动作指令
- **首次** 将**立体多阶段空间注意力** 应用于移动操作领域,能够在视觉尺度变化和干扰下稳定提取任务关键特征
- 设计了**层次循环架构**,实现了空间注意力点与机器人状态的深度融合,增强了**时域预测能力(temporal prediction)**
- 与现有模仿学习和VLA基线相比,在相同控制设置下,对**随机初始位置** 和**视觉干扰** 具有更强的鲁棒性,显著提升成功率
- 为**实时移动操作(real-time mobile manipulation)** 提供了一种**结构化立体空间注意力+预测时域建模** 的有效范式
- 在**四项真实世界任务** (刚性放置、铰接物体操作、可变形物体交互)上进行了系统评估,验证了方法的通用性
- 相比代表性基线方法,在视觉尺度变化和干扰下实现了更高的**任务成功率(task success rate)**,推动了移动操作在实际场景中的部署