面向长时域具身智能体的工具对齐视觉-语言-行动模型

📝 论文摘要

视觉-语言-动作（VLA）模型是高效的机器人动作执行器，但由于需要同时承担扩展的闭环规划与多样化的物理操作双重负担，其在长时域任务中仍存在局限性。为此，我们提出VLAs-as-Tools策略，通过将双重负担分配给用于时间推理的高层视觉语言模型（VLM）智能体与一组执行多样化局部物理操作的专用VLA工具来分散任务压力。VLM负责场景分析、全局规划与恢复，而每个VLA工具执行有界子任务。为在长时域任务中实现智能体规划与VLA工具执行的紧密耦合，我们引入VLA工具族接口，该接口暴露显式的工具选择与执行进度反馈机制，从而在不需持续轮询智能体的情况下实现高效的事件触发式智能体重规划。为获取能够忠实遵循智能体调用的多样化专用VLA工具，我们进一步提出工具对齐后训练（TAPT）方法，该方法构建面向指令遵循的对齐训练单元，并采用工具族残差适配器实现高效的专用化工具适配。实验表明，VLAs-as-Tools在LIBERO-Long上将$π_{0.5}$的成功率提升4.8个百分点，在RoboTwin上提升23.1个百分点，并通过无偏率指标将调用保真度提升15.0个百分点。代码将开源。

🎯 研究动机

- 现有**视觉-语言-动作(VLA)** 模型在**长时序任务(long-horizon tasks)** 中表现有限，因为它同时承担了**扩展的闭环规划(extended closed-loop planning)** 和**多样的物理操作(diverse physical operations)** 的双重负担 - 传统方法将全局规划与局部执行耦合过紧，导致智能体需要频繁轮询，效率低下 - 缺乏一种将高层时序推理与底层专业动作执行解耦的灵活框架 - 现有VLA工具难以针对不同子任务高效专业化，且指令遵循能力不足

🔧 核心方法

- 提出**VLAs-as-Tools** 策略，将任务负担分配给一个**高层的视觉语言模型(VLM)智能体** （负责场景分析、全局规划、恢复）和一系列**专门的VLA工具** （执行有界子任务） - 引入**VLA工具族接口(VLA tool-family interface)**，暴露显式的工具选择和执行中进度反馈，支持**事件触发的智能体重规划(event-triggered agent replanning)**，无需连续轮询 - 提出**工具对齐后训练(Tool-Aligned Post-Training, TAPT)**，构建**调用对齐的训练单元(invocation-aligned training units)** 以增强指令遵循，并采用**工具族残差适配器(tool-family residual adapters)** 实现高效工具专业化

💡 核心创新

- **首创性**：将VLA模型重构为“VLA工具族”，由高层VLM智能体统一调度，实现**分层解耦(hierarchical decoupling)**，解决了长时序任务中规划与执行的双重负担 - **高效耦合机制**：VLA工具族接口通过显式工具选择和进度反馈，实现**事件触发重规划(event-triggered replanning)**，避免连续轮询高层智能体，大幅提升执行效率 - **工具专业化训练**：TAPT方法通过调用对齐训练单元和残差适配器，在不改变基模型参数的前提下高效适配多种子任务，提升了指令遵循保真度（Non-biased Rate提高15.0点）

🏆 总体贡献

- 为**长时序具身智能体(long-horizon embodied agents)** 提供了一种新颖的**分层架构**，将VLA模型从单执行器升级为可扩展的工具族 - 在LIBERO-Long和RoboTwin等基准上显著提升成功率（分别提高4.8和23.1个百分点），验证了方法的有效性 - 开源代码促进社区复现与后续研究，推动VLA模型在复杂机器人任务中的实际应用

面向长时域具身智能体的工具对齐视觉-语言-行动模型
Towards Long-horizon Embodied Agents with Tool-Aligned Vision-Language-Action Models

📊 核心分析

面向长时域具身智能体的工具对齐视觉-语言-行动模型 Towards Long-horizon Embodied Agents with Tool-Aligned Vision-Language-Action Models

📊 核心分析

面向长时域具身智能体的工具对齐视觉-语言-行动模型
Towards Long-horizon Embodied Agents with Tool-Aligned Vision-Language-Action Models