← 返回论文列表

用于组合式机器人操作的语义结构化的专家混合模型
Semantically Structured Mixture-of-Experts for Compositional Robotic Manipulation

作者: Chengyu Deng, Guanqi Chen, Yizhou Chen 等7人
arXiv: 2605.23477v1
分类: cs.RO
📝 论文摘要
基于扩散的策略为精确的机器人操控建立了新标准,但面临关键的可扩展性瓶颈:高性能模型计算成本高昂,而轻量级替代方案往往难以在多样化的多任务环境中泛化。混合专家架构通过仅激活部分参数,为提升效率提供了有前景的路径。然而,现有混合专家路由机制通常依赖底层噪声或潜在统计特征,忽略了操控任务的组合性质,这会导致可复用行为在专家间碎片化,限制可解释性和可迁移性。我们提出用于组合机器人操控的语义结构化混合专家扩散策略(SMoDP),该框架将专家专业化建立在语义任务结构之上。SMoDP利用轻量级推理时技能预测器(通过视觉语言模型的离线标注进行监督),将动作块路由到专用于特定行为阶段的专家。为确保鲁棒分配,我们提出双对比对齐策略:在语言定义的技能语义中 grounding 多模态观测(模态间),同时强制执行视觉不同但功能相关行为间的路由一致性(模态内)。我们的方法在多任务基准上优于代表性扩散和基于混合专家的基线,参数效率显著提升,并通过参数高效微调展示了对新任务的有效组合迁移。项目网站:https://deng-cy20.github.io/SMoDP/

📊 核心分析

🎯 研究动机
- 扩散策略(Diffusion-based policies)在精确机器人操作中达到新标准,但面临可扩展性瓶颈:高性能模型计算成本高,轻量级模型在多样多任务环境中泛化能力不足 - 混合专家(Mixture-of-Experts, MoE)架构通过仅激活部分参数提高效率,但现有路由机制依赖低层噪声或潜在统计,忽略操作任务的组合(compositional)本质,导致可重用行为碎片化,限制可解释性和迁移性
🔧 核心方法
- 提出**语义结构化混合专家扩散策略(SMoDP)** 框架,将专家专业化建立在语义任务结构之上 - 利用轻量级推理时技能预测器(skill predictor),由视觉-语言模型(Vision-Language Models, VLMs)的离线标注监督,将动作块(action chunks)路由到专用于特定行为阶段(behavioral phase)的专家 - 提出**双对比对齐策略(dual contrastive alignment strategy)**:跨模态(Inter-modal)对比对齐多模态观测与语言定义的技能语义,模态内(Intra-modal)对比对齐视觉不同但功能相关行为的路由一致性
💡 核心创新
- **语义结构化路由**:首次将专家专业化与语义任务结构绑定,通过VLM离线标注指导路由,区别于现有依赖低层统计的方法 - **双对比对齐**:同时实现跨模态语义对齐和模态内路由一致性,确保多模态观测与语言技能语义匹配,且视觉不同但功能相似的行为路由到相同专家 - **参数高效**:在显著提升参数效率的同时,通过参数高效微调(parameter-efficient fine-tuning)实现对新任务的组合迁移(compositional transfer)
🏆 总体贡献
- 在多任务基准上优于代表性的扩散和MoE基线方法,参数效率显著提升 - 展示了有效的组合迁移能力:通过参数高效微调,模型可泛化到未见任务 - 开源项目网站提供代码和演示,促进社区复现与后续研究,为组合式机器人操作提供新范式