该论文旨在解决机器人操作(robotic manipulation)中扩散策略(diffusion policy)存在的两个关键问题:
- 由于均匀采样(uniform sampling)和缺乏样本难度感知,导致训练收敛缓慢
- 推理时频繁出现超时(timeout)失败
论文提出了VADF(视觉自适应扩散策略框架),这是一个模型无关(model-agnostic)的双自适应框架:
- 训练阶段:引入自适应损失网络(Adaptive Loss Network, ALN),这是一个基于多层感知机(MLP)的轻量级损失预测器,实时量化每步样本难度,通过硬负样本挖掘(hard negative mining)进行加权采样,优先处理高损失区域
- 推理阶段:设计分层视觉任务分割器(Hierarchical Vision Task Segmenter, HVTS),基于视觉输入将高级任务指令分解为多阶段低级子指令,通过为简单动作分配较短噪声调度(noise schedule)和较长直接执行序列,为复杂动作分配较长噪声步和较短执行序列,自适应分割动作序列
论文的核心创新在于提出了一个完整的视觉驱动双自适应框架:
- 首次在扩散策略训练中引入实时样本难度感知和自适应加权采样机制,通过ALN实现训练过程的动态优化
- 首创在推理阶段基于视觉输入的任务层次分割方法,通过HVTS实现计算资源的自适应分配
- 将训练加速和推理效率提升统一在一个框架内,同时解决了收敛慢和超时失败两大痛点
- 框架设计完全模型无关,可无缝集成到任何扩散策略架构中
论文对该领域的整体贡献包括:
- 显著提升了扩散策略在机器人操作中的训练效率和推理性能
- 为处理样本不平衡问题提供了新的视觉自适应解决方案
- 提出的双自适应机制为后续研究提供了可扩展的框架设计思路
- 通过实验验证了框架在减少收敛步骤和提高早期成功率方面的有效性