- 扩散策略(Diffusion-based policies)在精确机器人操作中达到新标准,但面临可扩展性瓶颈:高性能模型计算成本高,轻量级模型在多样多任务环境中泛化能力不足
- 混合专家(Mixture-of-Experts, MoE)架构通过仅激活部分参数提高效率,但现有路由机制依赖低层噪声或潜在统计,忽略操作任务的组合(compositional)本质,导致可重用行为碎片化,限制可解释性和迁移性
- 提出**语义结构化混合专家扩散策略(SMoDP)** 框架,将专家专业化建立在语义任务结构之上
- 利用轻量级推理时技能预测器(skill predictor),由视觉-语言模型(Vision-Language Models, VLMs)的离线标注监督,将动作块(action chunks)路由到专用于特定行为阶段(behavioral phase)的专家
- 提出**双对比对齐策略(dual contrastive alignment strategy)**:跨模态(Inter-modal)对比对齐多模态观测与语言定义的技能语义,模态内(Intra-modal)对比对齐视觉不同但功能相关行为的路由一致性
- **语义结构化路由**:首次将专家专业化与语义任务结构绑定,通过VLM离线标注指导路由,区别于现有依赖低层统计的方法
- **双对比对齐**:同时实现跨模态语义对齐和模态内路由一致性,确保多模态观测与语言技能语义匹配,且视觉不同但功能相似的行为路由到相同专家
- **参数高效**:在显著提升参数效率的同时,通过参数高效微调(parameter-efficient fine-tuning)实现对新任务的组合迁移(compositional transfer)
- 在多任务基准上优于代表性的扩散和MoE基线方法,参数效率显著提升
- 展示了有效的组合迁移能力:通过参数高效微调,模型可泛化到未见任务
- 开源项目网站提供代码和演示,促进社区复现与后续研究,为组合式机器人操作提供新范式