← 返回论文列表

视觉-语言-动作中视野外操作的空间记忆
Spatial Memory for Out-of-Vision Manipulation in Vision-Language-Action

作者: Pengteng Li, Weiyu Guo, He Zhang 等7人
arXiv: 2605.22283v1
分类: cs.RO
📝 论文摘要
我们介绍了SOMA,这是一种用于视觉-语言-动作(VLA)模型视野外操作的空间记忆框架。大多数现有VLA隐式假设任务相关物体始终可见,当目标超出相机视野时,会导致行为脆弱且反应滞后。SOMA通过为VLA配备由可移动头部相机获取的多视角观测构建的持久空间记忆,使其能够超越当前视觉范围进行推理,从而解决了这一限制。该框架包含三个组件:空间记忆构建,通过扫描将角度观测聚合为统一的空间语义表示;动态记忆细化,随时间维护全局一致性;以及上下文记忆检索,在操作过程中激活与指令相关的空间线索。我们在五个具有挑战性的真实世界视野外操作任务上评估了SOMA,包括目标物体初始不可见的多步骤和双机械臂场景。实验结果表明,SOMA不仅提高了任务成功率,还引发了性质不同的操作行为,包括更快的目标定位、减少的视角搜索以及部分可观测性下的近乎一次性抓取。在RoboCasa GR1和SimplerEnv上的额外实验进一步验证了SOMA记忆设计在传统完全可观测设置下的有效性。代码即将发布。

📊 核心分析

🎯 研究动机
- 现有**视觉-语言-动作(VLA)** 模型隐式假设任务相关物体始终可见,导致目标超出视野时行为脆弱且被动 - 解决在相机视野外进行机器人操控的问题,缺乏对不可见物体的空间推理能力 - 研究背景:机器人操控任务中,物体常因视角限制而不可见,现有VLA缺乏持久空间记忆机制
🔧 核心方法
- 提出**SOMA框架**,包含三个组件:**空间记忆构建(Spatial Memory Construction)**、**动态记忆细化(Dynamic Memory Refinement)** 和**上下文记忆检索(Contextual Memory Retrieval)** - **空间记忆构建**:通过移动头部相机扫描,将多视角观测聚合为统一的空间语义表示 - **动态记忆细化**:随时间维护全局一致性,确保记忆更新不冲突 - **上下文记忆检索**:在操控过程中激活与指令相关的空间线索,辅助决策
💡 核心创新
- **首创性**:首次为VLA模型配备持久**空间记忆(spatial memory)**,实现超出当前视觉锥体的推理与操控 - **框架设计**:提出三组件协同机制,将多视角扫描、动态维护和上下文检索结合,实现端到端记忆驱动 - **行为质变**:相比现有方法,SOMA诱导出更高效的操作行为——更快的目标定位、减少视角搜索、近**一次性抓取(one-shot grasping)**
🏆 总体贡献
- 为VLA领域提供了一种新颖的**空间记忆框架**,解决了视野外操作这一关键挑战 - 在五个真实世界任务(含多步和双臂场景)上验证有效性,显著提升任务成功率 - 额外实验在RoboCasa GR1和SimplerEnv等标准环境证实了记忆设计在完全可观测设置下的有效性 - 开源代码促进社区复现与后续研究