- 现有**视觉-语言-动作(VLA)** 模型隐式假设任务相关物体始终可见,导致目标超出视野时行为脆弱且被动
- 解决在相机视野外进行机器人操控的问题,缺乏对不可见物体的空间推理能力
- 研究背景:机器人操控任务中,物体常因视角限制而不可见,现有VLA缺乏持久空间记忆机制
- 提出**SOMA框架**,包含三个组件:**空间记忆构建(Spatial Memory Construction)**、**动态记忆细化(Dynamic Memory Refinement)** 和**上下文记忆检索(Contextual Memory Retrieval)**
- **空间记忆构建**:通过移动头部相机扫描,将多视角观测聚合为统一的空间语义表示
- **动态记忆细化**:随时间维护全局一致性,确保记忆更新不冲突
- **上下文记忆检索**:在操控过程中激活与指令相关的空间线索,辅助决策
- **首创性**:首次为VLA模型配备持久**空间记忆(spatial memory)**,实现超出当前视觉锥体的推理与操控
- **框架设计**:提出三组件协同机制,将多视角扫描、动态维护和上下文检索结合,实现端到端记忆驱动
- **行为质变**:相比现有方法,SOMA诱导出更高效的操作行为——更快的目标定位、减少视角搜索、近**一次性抓取(one-shot grasping)**
- 为VLA领域提供了一种新颖的**空间记忆框架**,解决了视野外操作这一关键挑战
- 在五个真实世界任务(含多步和双臂场景)上验证有效性,显著提升任务成功率
- 额外实验在RoboCasa GR1和SimplerEnv等标准环境证实了记忆设计在完全可观测设置下的有效性
- 开源代码促进社区复现与后续研究