- 解决当前**视觉-语言-动作策略(vision-language-action policies)** 和**世界-动作模型(world-action models)** 中语言知识与视觉计算耦合导致的**模态竞争(modality competition)** 问题
- 现有方法将语言知识与视觉计算共享骨干网络或条件通路,使得**知识扩展(knowledge extension)** 依赖于骨干网络的更新
- 研究背景:具身控制(embodied control)需要模型遵循组合语言指令并推理动态视觉状态,但现有方法难以高效扩展语言知识
- 提出**Key-Gram** 框架,一种**条件记忆(conditional-memory)** 结构,将语言派生的世界知识与视觉状态推理分离
- 核心是一个**记忆模块(memory module)**,将指令分解为任务特定的**键元组(key-grams)**,通过确定性哈希查找(deterministic hashed lookup)检索静态语言先验
- 通过**上下文感知门控(context-aware gating)** 和**轻量卷积融合(lightweight convolutional fusion)** 将检索到的条目注入选定的隐藏层,实现O(1)查找模式
- **首创性**:首次将语言知识**外部化(externalized)** 到可扩展的记忆中,使骨干网络专注于视觉推理和动作推断,避免知识扩展依赖骨干更新
- **效率提升**:采用O(1)哈希查找,记忆表可在推理时高效放置于主机内存,支持便捷的分区训练
- **架构分离**:通过解耦语言知识与视觉计算,消除了模态竞争,提升了组合指令理解能力
- 为具身控制领域提供了一种**外部化语言记忆(externalized linguistic memory)** 机制,增强了组合接地(compositional grounding)、迁移能力(transfer)和真实世界操控
- 在RoboTwin2.0、LIBERO/LIBERO-Plus和真实世界双臂操控任务上,对π₀和π₀₅骨干网络实现一致提升,平均相对增益达29.5%/9.9%、35.8%/4.5%和15.4%/8.1%
- 开源框架促进可扩展知识注入方法的后续研究