该论文旨在解决人形机器人全身协调操控的挑战。研究背景是:人类通过全身协调控制完成复杂操作,而大多数视觉-语言-动作(Vision-Language-Action, VLA)模型将机器人身体部位视为独立部分处理,导致高自由度(high-DoF)人形机器人控制困难且不稳定。
论文提出了HEX框架,具体方法包括:
- 引入人形对齐的通用状态表示(humanoid-aligned universal state representation),用于跨异构形态的可扩展学习
- 采用专家混合统一本体感知预测器(Mixture-of-Experts Unified Proprioceptive Predictor)从大规模多形态轨迹数据中建模全身协调和时序运动动态
- 使用轻量级历史令牌(lightweight history tokens)总结过去观察,避免推理时重复编码历史图像
- 采用残差门控融合机制(residual-gated fusion mechanism)与流匹配动作头(flow-matching action head),自适应整合视觉-语言线索与本体感知动态以生成动作
论文的核心创新点包括:
- **首创人形对齐的通用状态表示**:提出专门针对人形机器人设计的统一状态表示方法,解决了跨形态学习的可扩展性问题
- **专家混合本体感知预测器**:通过混合专家(Mixture-of-Experts)架构专门建模全身协调和时序动态,突破了传统VLA模型处理身体部位独立性的局限
- **高效的时序视觉上下文捕获**:采用轻量级历史令牌机制,在保持性能的同时显著降低了计算开销
- **自适应多模态融合机制**:通过残差门控融合和流匹配动作头,实现了视觉-语言线索与本体感知动态的智能集成
论文的整体贡献包括:
- 提出了首个面向全尺寸双足人形机器人协调操控的状态中心框架(state-centric framework)
- 在真实世界人形机器人操控任务中实现了最先进的性能,特别是在快速反应和长时域场景中表现出优异的任务成功率和泛化能力
- 为人形机器人高自由度协调控制提供了可扩展的解决方案,推动了跨形态全身操控研究的发展