- 现有方法存在**两阶段方法(domain shift)** 中运动生成与物理跟踪之间的内在域漂移
- **端到端模仿学习** 面临文本指令与低级动作之间的巨大模态差距,语义对齐困难
- 解决**物理人形机器人(physics-based humanoid)** 从高级文本命令执行多样行为的挑战
- 提出**MIND框架**,一个端到端扩散模型(e2e diffusion model),以行为意图作为文本与动作的语义桥梁
- 引入**多尺度意图扩散机制(multi-scale intent diffusion)**:整体意图预测器(hollistic intent predictor)捕获全局行为动态,即时意图预测器(immediate intent predictor)提供逐步骤的细粒度局部行为修正信号
- 将**人形状态(humanoid states)** 编码到潜空间(latent space),增强语义意图建模能力
- **首次提出以行为意图作为语义桥梁**,利用人形状态丰富的运动动态与文本的语义对齐优势
- **层次化意图结构**:整体与即时意图的双层次设计,为控制提供结构归纳偏置(structured inductive bias)
- **端到端扩散框架** 统一文本到物理行为的生成,避免两阶段方法的累积误差
- **状态潜空间编码** 提升语义对齐效果,区别于直接使用低级动作
- 在**文本驱动的物理人形控制(text-driven physics-based humanoid control)** 领域提出新的端到端范式
- 实验证明优于现有方法,生成的行为连贯、物理合理且语义对齐
- 将**开源代码**,促进社区复现和后续研究