- 现有**视觉-语言-动作(VLA)** 模型在**长时序任务(long-horizon tasks)** 中表现有限,因为它同时承担了**扩展的闭环规划(extended closed-loop planning)** 和**多样的物理操作(diverse physical operations)** 的双重负担
- 传统方法将全局规划与局部执行耦合过紧,导致智能体需要频繁轮询,效率低下
- 缺乏一种将高层时序推理与底层专业动作执行解耦的灵活框架
- 现有VLA工具难以针对不同子任务高效专业化,且指令遵循能力不足
- 提出**VLAs-as-Tools** 策略,将任务负担分配给一个**高层的视觉语言模型(VLM)智能体** (负责场景分析、全局规划、恢复)和一系列**专门的VLA工具** (执行有界子任务)
- 引入**VLA工具族接口(VLA tool-family interface)**,暴露显式的工具选择和执行中进度反馈,支持**事件触发的智能体重规划(event-triggered agent replanning)**,无需连续轮询
- 提出**工具对齐后训练(Tool-Aligned Post-Training, TAPT)**,构建**调用对齐的训练单元(invocation-aligned training units)** 以增强指令遵循,并采用**工具族残差适配器(tool-family residual adapters)** 实现高效工具专业化
- **首创性**:将VLA模型重构为“VLA工具族”,由高层VLM智能体统一调度,实现**分层解耦(hierarchical decoupling)**,解决了长时序任务中规划与执行的双重负担
- **高效耦合机制**:VLA工具族接口通过显式工具选择和进度反馈,实现**事件触发重规划(event-triggered replanning)**,避免连续轮询高层智能体,大幅提升执行效率
- **工具专业化训练**:TAPT方法通过调用对齐训练单元和残差适配器,在不改变基模型参数的前提下高效适配多种子任务,提升了指令遵循保真度(Non-biased Rate提高15.0点)
- 为**长时序具身智能体(long-horizon embodied agents)** 提供了一种新颖的**分层架构**,将VLA模型从单执行器升级为可扩展的工具族
- 在LIBERO-Long和RoboTwin等基准上显著提升成功率(分别提高4.8和23.1个百分点),验证了方法的有效性
- 开源代码促进社区复现与后续研究,推动VLA模型在复杂机器人任务中的实际应用