关键语法：面向具身操作的可扩展世界知识

📝 论文摘要

具身控制日益要求模型在遵循组合语言指令的同时，能够对动态视觉状态进行推理。然而，当前的视觉-语言-动作策略和世界-动作模型往往将语言知识与视觉计算耦合在共享的骨干网络或条件路径中，导致模态竞争，并使知识扩展依赖于骨干网络的更新。本文提出Key-Gram，一种条件记忆框架，将语言派生的世界知识与具身控制的视觉状态推理相分离。其核心是一个记忆模块，该模块将指令分解为任务特定的关键短语，通过确定性哈希查找检索静态语言先验，并通过上下文感知门控和轻量卷积融合将检索到的条目注入选定的隐藏层。这种设计使骨干网络能够将主要能力用于视觉推理和动作推断，而可复用的指令知识则存储在可扩展的外部记忆中。逻辑记忆表在训练期间可以方便地进行分区，并由于其O(1)查找模式，在推理期间能够高效地置于主机内存中。在RoboTwin2.0、LIBERO/LIBERO-Plus和真实世界双臂操作任务中，Key-Gram一致地改进了π₀和π₀.₅骨干网络，在RoboTwin2.0上平均相对提升29.5%/9.9%，在LIBERO-Plus跨域迁移（无目标域微调）上提升35.8%/4.5%，在真实世界长时域任务上提升15.4%/8.1%。这些结果表明，外部化的语言记忆为改进组合理解、迁移和真实世界操作提供了有效且可扩展的机制。

🎯 研究动机

- 解决当前**视觉-语言-动作策略(vision-language-action policies)** 和**世界-动作模型(world-action models)** 中语言知识与视觉计算耦合导致的**模态竞争(modality competition)** 问题 - 现有方法将语言知识与视觉计算共享骨干网络或条件通路，使得**知识扩展(knowledge extension)** 依赖于骨干网络的更新 - 研究背景：具身控制(embodied control)需要模型遵循组合语言指令并推理动态视觉状态，但现有方法难以高效扩展语言知识

🔧 核心方法

- 提出**Key-Gram** 框架，一种**条件记忆(conditional-memory)** 结构，将语言派生的世界知识与视觉状态推理分离 - 核心是一个**记忆模块(memory module)**，将指令分解为任务特定的**键元组(key-grams)**，通过确定性哈希查找(deterministic hashed lookup)检索静态语言先验 - 通过**上下文感知门控(context-aware gating)** 和**轻量卷积融合(lightweight convolutional fusion)** 将检索到的条目注入选定的隐藏层，实现O(1)查找模式

💡 核心创新

- **首创性**：首次将语言知识**外部化(externalized)** 到可扩展的记忆中，使骨干网络专注于视觉推理和动作推断，避免知识扩展依赖骨干更新 - **效率提升**：采用O(1)哈希查找，记忆表可在推理时高效放置于主机内存，支持便捷的分区训练 - **架构分离**：通过解耦语言知识与视觉计算，消除了模态竞争，提升了组合指令理解能力

🏆 总体贡献

- 为具身控制领域提供了一种**外部化语言记忆(externalized linguistic memory)** 机制，增强了组合接地(compositional grounding)、迁移能力(transfer)和真实世界操控 - 在RoboTwin2.0、LIBERO/LIBERO-Plus和真实世界双臂操控任务上，对π₀和π₀₅骨干网络实现一致提升，平均相对增益达29.5%/9.9%、35.8%/4.5%和15.4%/8.1% - 开源框架促进可扩展知识注入方法的后续研究

关键语法：面向具身操作的可扩展世界知识
Key-Gram: Extensible World Knowledge for Embodied Manipulation

📊 核心分析

关键语法：面向具身操作的可扩展世界知识 Key-Gram: Extensible World Knowledge for Embodied Manipulation

📊 核心分析

关键语法：面向具身操作的可扩展世界知识
Key-Gram: Extensible World Knowledge for Embodied Manipulation