用于组合式机器人操作的语义结构化的专家混合模型

📝 论文摘要

基于扩散的策略为精确的机器人操控建立了新标准，但面临关键的可扩展性瓶颈：高性能模型计算成本高昂，而轻量级替代方案往往难以在多样化的多任务环境中泛化。混合专家架构通过仅激活部分参数，为提升效率提供了有前景的路径。然而，现有混合专家路由机制通常依赖底层噪声或潜在统计特征，忽略了操控任务的组合性质，这会导致可复用行为在专家间碎片化，限制可解释性和可迁移性。我们提出用于组合机器人操控的语义结构化混合专家扩散策略（SMoDP），该框架将专家专业化建立在语义任务结构之上。SMoDP利用轻量级推理时技能预测器（通过视觉语言模型的离线标注进行监督），将动作块路由到专用于特定行为阶段的专家。为确保鲁棒分配，我们提出双对比对齐策略：在语言定义的技能语义中 grounding 多模态观测（模态间），同时强制执行视觉不同但功能相关行为间的路由一致性（模态内）。我们的方法在多任务基准上优于代表性扩散和基于混合专家的基线，参数效率显著提升，并通过参数高效微调展示了对新任务的有效组合迁移。项目网站：https://deng-cy20.github.io/SMoDP/

🎯 研究动机

- 扩散策略(Diffusion-based policies)在精确机器人操作中达到新标准，但面临可扩展性瓶颈：高性能模型计算成本高，轻量级模型在多样多任务环境中泛化能力不足 - 混合专家(Mixture-of-Experts, MoE)架构通过仅激活部分参数提高效率，但现有路由机制依赖低层噪声或潜在统计，忽略操作任务的组合(compositional)本质，导致可重用行为碎片化，限制可解释性和迁移性

🔧 核心方法

- 提出**语义结构化混合专家扩散策略(SMoDP)** 框架，将专家专业化建立在语义任务结构之上 - 利用轻量级推理时技能预测器(skill predictor)，由视觉-语言模型(Vision-Language Models, VLMs)的离线标注监督，将动作块(action chunks)路由到专用于特定行为阶段(behavioral phase)的专家 - 提出**双对比对齐策略(dual contrastive alignment strategy)**：跨模态(Inter-modal)对比对齐多模态观测与语言定义的技能语义，模态内(Intra-modal)对比对齐视觉不同但功能相关行为的路由一致性

💡 核心创新

- **语义结构化路由**：首次将专家专业化与语义任务结构绑定，通过VLM离线标注指导路由，区别于现有依赖低层统计的方法 - **双对比对齐**：同时实现跨模态语义对齐和模态内路由一致性，确保多模态观测与语言技能语义匹配，且视觉不同但功能相似的行为路由到相同专家 - **参数高效**：在显著提升参数效率的同时，通过参数高效微调(parameter-efficient fine-tuning)实现对新任务的组合迁移(compositional transfer)

🏆 总体贡献

- 在多任务基准上优于代表性的扩散和MoE基线方法，参数效率显著提升 - 展示了有效的组合迁移能力：通过参数高效微调，模型可泛化到未见任务 - 开源项目网站提供代码和演示，促进社区复现与后续研究，为组合式机器人操作提供新范式

用于组合式机器人操作的语义结构化的专家混合模型
Semantically Structured Mixture-of-Experts for Compositional Robotic Manipulation

📊 核心分析

用于组合式机器人操作的语义结构化的专家混合模型 Semantically Structured Mixture-of-Experts for Compositional Robotic Manipulation

📊 核心分析

用于组合式机器人操作的语义结构化的专家混合模型
Semantically Structured Mixture-of-Experts for Compositional Robotic Manipulation