MIND：面向文本驱动的基于物理的人形控制的多尺度意图扩散

MIND: Multi-Scale Intent Diffusion for Text-Driven Physics-Based Humanoid Control

作者: Bin Li, Ruichi Zhang, Han Liang 等7人

arXiv: 2605.26006v1

分类: cs.CV, cs.GR, cs.RO

📝 论文摘要

让基于物理的人形机器人能够根据高级文本指令执行多样化行为仍然是一项重大挑战。现有方法通常遵循两种范式：一是结合运动学运动生成与物理追踪的两阶段范式，二是直接从文本生成动作的端到端模仿学习范式。然而，前者受限于运动学生成与物理追踪之间固有的领域差异，后者则因文本指令与低级动作之间显著的模态差距而难以实现有效的语义对齐。值得注意的是，人形机器人的状态编码了丰富的运动动态信息，这些信息比低级动作在语义上更接近文本描述，因此成为推导行为意图的自然基础。基于这一见解，我们提出MIND——一种新颖的端到端扩散框架，用于文本驱动的基于物理的人形机器人控制，该框架利用行为意图作为文本指令与低级动作之间的语义桥梁。其核心是引入多尺度意图扩散机制：全局意图预测器捕捉整体行为动态以引导整体行为合成，而即时意图预测器则在每次扩散步骤中提供逐步的细粒度信号用于局部行为优化。这种层次化的意图表达为机器人控制施加了结构化的归纳偏置，从而提升了语义对齐和行为自然性。此外，MIND将人形机器人状态编码到潜在空间中，以实现更有效的语义意图建模。大量实验表明，MIND优于现有方法，能够从文本指令中合成连贯、物理上合理且语义对齐的人形机器人行为。我们将发布代码以促进未来研究。

📊 核心分析

🎯 研究动机

- 现有方法存在**两阶段方法(domain shift)** 中运动生成与物理跟踪之间的内在域漂移 - **端到端模仿学习** 面临文本指令与低级动作之间的巨大模态差距，语义对齐困难 - 解决**物理人形机器人(physics-based humanoid)** 从高级文本命令执行多样行为的挑战

🔧 核心方法

- 提出**MIND框架**，一个端到端扩散模型(e2e diffusion model)，以行为意图作为文本与动作的语义桥梁 - 引入**多尺度意图扩散机制(multi-scale intent diffusion)**：整体意图预测器(hollistic intent predictor)捕获全局行为动态，即时意图预测器(immediate intent predictor)提供逐步骤的细粒度局部行为修正信号 - 将**人形状态(humanoid states)** 编码到潜空间(latent space)，增强语义意图建模能力

💡 核心创新

- **首次提出以行为意图作为语义桥梁**，利用人形状态丰富的运动动态与文本的语义对齐优势 - **层次化意图结构**：整体与即时意图的双层次设计，为控制提供结构归纳偏置(structured inductive bias) - **端到端扩散框架** 统一文本到物理行为的生成，避免两阶段方法的累积误差 - **状态潜空间编码** 提升语义对齐效果，区别于直接使用低级动作

🏆 总体贡献

- 在**文本驱动的物理人形控制(text-driven physics-based humanoid control)** 领域提出新的端到端范式 - 实验证明优于现有方法，生成的行为连贯、物理合理且语义对齐 - 将**开源代码**，促进社区复现和后续研究