身体移动之前：学习语言条件人形控制的预期关节意图

📝 论文摘要

自然语言是人形机器人的直观接口，然而流式全身控制需要既能即时执行又能预判未来物理状态转换的控制表示。现有语言条件化的人形系统通常生成运动学参考，由低级跟踪器反应式修正，或使用潜在/动作策略，其输出未显式编码即将发生的接触变化、支撑转移及平衡准备。本文提出**DAJI**（动力学对齐的关节意图）分层框架，学习语言生成与闭环控制之间的预判性关节意图接口。DAJI-Act通过学生驱动推演将未来感知教师模型蒸馏为可部署的扩散动作策略，而DAJI-Flow基于语言与意图历史自回归生成未来意图块。实验表明，DAJI在预判性潜在学习、单指令生成及流式指令跟随中表现优异，在HumanML3D风格生成任务中达到94.42%的推演成功率，在BABEL上获得0.152的子序列FID值。

🎯 研究动机

- 现有语言条件人形控制系统通常生成运动学参考，需低级跟踪器被动修复，缺乏对未来物理变化的显式编码 - 流式全身控制要求表示既当前可执行又能预判接触变化、支撑转移和平衡准备，现有方法无法满足该需求 - 基于潜在或动作策略的方法不显式编码即将发生的状态转换，导致动作连贯性和稳定性不足

🔧 核心方法

- 提出**DAJI(Dynamics-Aligned Joint Intent)** 层次化框架，建立语言生成与闭环控制之间的预判联合意图接口 - 设计**DAJI-Act** 模块，通过学生驱动的rollout将未来感知的教师策略蒸馏为可部署的**扩散动作策略(diffusion action policy)** - 设计**DAJI-Flow** 模块，从语言和意图历史**自回归(autoregressive)** 生成未来意图块，实现流式指令跟随

💡 核心创新

- **首次提出与动力学对齐的预判联合意图**：显式编码即将发生的接触变化、支撑转移和平衡准备，区别于仅生成运动学参考或隐式潜在策略的方法 - **教师-学生蒸馏+扩散策略**：通过学生驱动rollout将未来感知教师策略蒸馏为即时可执行的动作表示，兼顾前瞻性与实时性 - **自回归意图生成**：从语言和意图历史生成未来意图块，无需显式运动学参考，支持流式指令与长期任务连贯性

🏆 总体贡献

- 提供了语言条件人形控制的新范式：通过预判联合意图将高级语言指令与低级物理控制对齐，提升动作的物理合理性与长期连贯性 - 在**HumanML3D** 风格生成上达到94.42% rollout成功率，在**BABEL** 上达到0.152子序列FID，验证了方法在生成质量与流式跟随上的优越性 - 层次化框架DAJI可扩展到其他需要预判与实时控制的连续控制任务，为语言引导的人形机器人运动生成奠定基础

身体移动之前：学习语言条件人形控制的预期关节意图
Before the Body Moves: Learning Anticipatory Joint Intent for Language-Conditioned Humanoid Control

📊 核心分析

身体移动之前：学习语言条件人形控制的预期关节意图 Before the Body Moves: Learning Anticipatory Joint Intent for Language-Conditioned Humanoid Control

📊 核心分析

身体移动之前：学习语言条件人形控制的预期关节意图
Before the Body Moves: Learning Anticipatory Joint Intent for Language-Conditioned Humanoid Control