视觉-语言-动作中视野外操作的空间记忆

📝 论文摘要

我们介绍了SOMA，这是一种用于视觉-语言-动作（VLA）模型视野外操作的空间记忆框架。大多数现有VLA隐式假设任务相关物体始终可见，当目标超出相机视野时，会导致行为脆弱且反应滞后。SOMA通过为VLA配备由可移动头部相机获取的多视角观测构建的持久空间记忆，使其能够超越当前视觉范围进行推理，从而解决了这一限制。该框架包含三个组件：空间记忆构建，通过扫描将角度观测聚合为统一的空间语义表示；动态记忆细化，随时间维护全局一致性；以及上下文记忆检索，在操作过程中激活与指令相关的空间线索。我们在五个具有挑战性的真实世界视野外操作任务上评估了SOMA，包括目标物体初始不可见的多步骤和双机械臂场景。实验结果表明，SOMA不仅提高了任务成功率，还引发了性质不同的操作行为，包括更快的目标定位、减少的视角搜索以及部分可观测性下的近乎一次性抓取。在RoboCasa GR1和SimplerEnv上的额外实验进一步验证了SOMA记忆设计在传统完全可观测设置下的有效性。代码即将发布。

🎯 研究动机

- 现有**视觉-语言-动作(VLA)** 模型隐式假设任务相关物体始终可见，导致目标超出视野时行为脆弱且被动 - 解决在相机视野外进行机器人操控的问题，缺乏对不可见物体的空间推理能力 - 研究背景：机器人操控任务中，物体常因视角限制而不可见，现有VLA缺乏持久空间记忆机制

🔧 核心方法

- 提出**SOMA框架**，包含三个组件：**空间记忆构建(Spatial Memory Construction)**、**动态记忆细化(Dynamic Memory Refinement)** 和**上下文记忆检索(Contextual Memory Retrieval)** - **空间记忆构建**：通过移动头部相机扫描，将多视角观测聚合为统一的空间语义表示 - **动态记忆细化**：随时间维护全局一致性，确保记忆更新不冲突 - **上下文记忆检索**：在操控过程中激活与指令相关的空间线索，辅助决策

💡 核心创新

- **首创性**：首次为VLA模型配备持久**空间记忆(spatial memory)**，实现超出当前视觉锥体的推理与操控 - **框架设计**：提出三组件协同机制，将多视角扫描、动态维护和上下文检索结合，实现端到端记忆驱动 - **行为质变**：相比现有方法，SOMA诱导出更高效的操作行为——更快的目标定位、减少视角搜索、近**一次性抓取(one-shot grasping)**

🏆 总体贡献

- 为VLA领域提供了一种新颖的**空间记忆框架**，解决了视野外操作这一关键挑战 - 在五个真实世界任务（含多步和双臂场景）上验证有效性，显著提升任务成功率 - 额外实验在RoboCasa GR1和SimplerEnv等标准环境证实了记忆设计在完全可观测设置下的有效性 - 开源代码促进社区复现与后续研究

视觉-语言-动作中视野外操作的空间记忆
Spatial Memory for Out-of-Vision Manipulation in Vision-Language-Action

📊 核心分析

视觉-语言-动作中视野外操作的空间记忆 Spatial Memory for Out-of-Vision Manipulation in Vision-Language-Action

📊 核心分析

视觉-语言-动作中视野外操作的空间记忆
Spatial Memory for Out-of-Vision Manipulation in Vision-Language-Action