- 现有具身智能方法将感知、推理、规划、控制统一在**参数化策略(parameterized policy)** 中,但这些能力本质上是**层次化且异质化(hierarchical and heterogeneous)** 的,难以在单一模型中可靠学习和模块化
- 研究背景:具身智能需要灵活应对多种任务和动态环境,现有方法缺乏可扩展性,无法高效组合异构能力
- 核心问题:如何将异构能力解耦并动态调用,以提升具身系统的**模块化(modularity)** 和**可扩展性(extensibility)**
- 提出**能力外化(capability externalization)** 方法,将异构能力解耦为独立优化的工具,在推理时动态调用
- 设计**Embodied Tool Protocol (ETP)**,一种标准化的具身工具协议,支持工具的注册、发现、调用和执行
- 构建包含100+经过验证的工具集,涵盖感知、认知、推理和执行等能力,并构建**EmbodiedToolBench** 基准评估工具增强效果
- 实验在仿真和真实平台进行,从工具必要性识别、工具选择、工具执行和工具链组合四个维度评估模型能力
- **首创性**:首次提出将具身能力**外化(externalize)** 为独立工具,通过标准化协议实现动态组合,区别于现有将能力统一内化于单一模型的做法
- **系统化框架**:设计了完整的工具协议(ETP)和工具库(100+工具),为具身智能提供可扩展的模块化基础
- **边界发现**:揭示能力外化的效果存在明显边界——对认知和感知类能力提升显著(平均31%-36%),但对执行类能力提升有限
- **挑战定位**:明确指出“何时、哪个、如何”调用工具仍是持续挑战,从而定义了具身工具能力作为未来研究的关键方向
- 为具身智能领域提供了一种**可扩展的模块化范式**,通过工具外化解耦异构能力,显著提升了任务性能(EB-ALFRED提升31%,EB-Navigation提升36%)
- 构建了标准化工具协议**ETP** 和基准测试**EmbodiedToolBench**,为后续具身工具研究提供基础设施和评估框架
- 揭示了能力外化在不同能力类型上的差异化效果,并指出工具调用决策是核心瓶颈,为该领域未来研究指明方向
- **开源工具库和基准** 促进社区复现与后续研究,推动具身智能向更模块化、可扩展的方向发展