利用工具实现可扩展的具身能力

📝 论文摘要

现有大多数具身智能方法将感知、推理、规划与控制统一纳入参数化策略中。然而，这些能力本质上具有层次性和异质性，难以在单一模型中可靠地学习与模块化。我们提出一种能力外部化方法，将异质性能力解耦为独立优化的工具，并在推理阶段动态调用。为此，我们引入具身工具协议（ETP），一套用于具身工具注册、发现、调用和执行的标准化协议，并构建了包含100余个经过验证的工具库，涵盖感知、认知、推理与执行。在此基础上，我们构建EmbodiedToolBench基准，以评估工具增强是否提升具身性能，以及当前模型在工具必要性识别、工具选择、工具执行和工具链组合中对工具的使用能力。在仿真与真实平台上的实验证实，能力外部化能持续提升具身性能（在EB-ALFRED上平均提升31%，在EB-Navigation上平均提升36%），但也揭示了清晰的边界：在认知与感知方面收益显著，而在执行类能力上提升有限。此外，我们的分析表明，知道何时、选择哪个以及如何调用工具，仍是所有模型面临的持续挑战，从而凸显出具身工具能力作为未来研究的关键方向。

🎯 研究动机

- 现有具身智能方法将感知、推理、规划、控制统一在**参数化策略(parameterized policy)** 中，但这些能力本质上是**层次化且异质化(hierarchical and heterogeneous)** 的，难以在单一模型中可靠学习和模块化 - 研究背景：具身智能需要灵活应对多种任务和动态环境，现有方法缺乏可扩展性，无法高效组合异构能力 - 核心问题：如何将异构能力解耦并动态调用，以提升具身系统的**模块化(modularity)** 和**可扩展性(extensibility)**

🔧 核心方法

- 提出**能力外化(capability externalization)** 方法，将异构能力解耦为独立优化的工具，在推理时动态调用 - 设计**Embodied Tool Protocol (ETP)**，一种标准化的具身工具协议，支持工具的注册、发现、调用和执行 - 构建包含100+经过验证的工具集，涵盖感知、认知、推理和执行等能力，并构建**EmbodiedToolBench** 基准评估工具增强效果 - 实验在仿真和真实平台进行，从工具必要性识别、工具选择、工具执行和工具链组合四个维度评估模型能力

💡 核心创新

- **首创性**：首次提出将具身能力**外化(externalize)** 为独立工具，通过标准化协议实现动态组合，区别于现有将能力统一内化于单一模型的做法 - **系统化框架**：设计了完整的工具协议(ETP)和工具库(100+工具)，为具身智能提供可扩展的模块化基础 - **边界发现**：揭示能力外化的效果存在明显边界——对认知和感知类能力提升显著（平均31%-36%），但对执行类能力提升有限 - **挑战定位**：明确指出“何时、哪个、如何”调用工具仍是持续挑战，从而定义了具身工具能力作为未来研究的关键方向

🏆 总体贡献

- 为具身智能领域提供了一种**可扩展的模块化范式**，通过工具外化解耦异构能力，显著提升了任务性能（EB-ALFRED提升31%，EB-Navigation提升36%） - 构建了标准化工具协议**ETP** 和基准测试**EmbodiedToolBench**，为后续具身工具研究提供基础设施和评估框架 - 揭示了能力外化在不同能力类型上的差异化效果，并指出工具调用决策是核心瓶颈，为该领域未来研究指明方向 - **开源工具库和基准** 促进社区复现与后续研究，推动具身智能向更模块化、可扩展的方向发展

利用工具实现可扩展的具身能力
Enabling Extensible Embodied Capabilities with Tools

📊 核心分析

利用工具实现可扩展的具身能力 Enabling Extensible Embodied Capabilities with Tools

📊 核心分析

利用工具实现可扩展的具身能力
Enabling Extensible Embodied Capabilities with Tools