HEX：面向跨形态全身操控的人形对齐专家系统

📝 论文摘要

人类通过协调的全身控制实现复杂操作，而大多数视觉-语言-动作模型将机器人身体部位视为独立单元，导致高自由度人形机器人控制困难且不稳定。我们提出HEX框架——一种以状态为中心的全身协调操控方案，专为全尺寸双足人形机器人设计。该框架引入人形对齐的通用状态表示法，支持跨异构机器人的可扩展学习；并集成混合专家统一本体感知预测器，通过大规模多机器人轨迹数据建模全身协调与时序运动动态。为高效捕捉时序视觉上下文，HEX采用轻量历史令牌总结过往观测，避免推理时重复编码历史图像。其进一步通过残差门控融合机制与流匹配动作头，自适应整合视觉-语言信号与本体感知动态以生成动作。在真实人形机器人操控任务中的实验表明，HEX在任务成功率与泛化能力上达到最优水平，尤其在快速反应与长时程场景中表现突出。

🎯 研究动机

该论文旨在解决人形机器人全身协调操控的挑战。研究背景是：人类通过全身协调控制完成复杂操作，而大多数视觉-语言-动作(Vision-Language-Action, VLA)模型将机器人身体部位视为独立部分处理，导致高自由度(high-DoF)人形机器人控制困难且不稳定。

🔧 核心方法

论文提出了HEX框架，具体方法包括： - 引入人形对齐的通用状态表示(humanoid-aligned universal state representation)，用于跨异构形态的可扩展学习 - 采用专家混合统一本体感知预测器(Mixture-of-Experts Unified Proprioceptive Predictor)从大规模多形态轨迹数据中建模全身协调和时序运动动态 - 使用轻量级历史令牌(lightweight history tokens)总结过去观察，避免推理时重复编码历史图像 - 采用残差门控融合机制(residual-gated fusion mechanism)与流匹配动作头(flow-matching action head)，自适应整合视觉-语言线索与本体感知动态以生成动作

💡 核心创新

论文的核心创新点包括： - **首创人形对齐的通用状态表示**：提出专门针对人形机器人设计的统一状态表示方法，解决了跨形态学习的可扩展性问题 - **专家混合本体感知预测器**：通过混合专家(Mixture-of-Experts)架构专门建模全身协调和时序动态，突破了传统VLA模型处理身体部位独立性的局限 - **高效的时序视觉上下文捕获**：采用轻量级历史令牌机制，在保持性能的同时显著降低了计算开销 - **自适应多模态融合机制**：通过残差门控融合和流匹配动作头，实现了视觉-语言线索与本体感知动态的智能集成

🏆 总体贡献

论文的整体贡献包括： - 提出了首个面向全尺寸双足人形机器人协调操控的状态中心框架(state-centric framework) - 在真实世界人形机器人操控任务中实现了最先进的性能，特别是在快速反应和长时域场景中表现出优异的任务成功率和泛化能力 - 为人形机器人高自由度协调控制提供了可扩展的解决方案，推动了跨形态全身操控研究的发展

HEX：面向跨形态全身操控的人形对齐专家系统
HEX: Humanoid-Aligned Experts for Cross-Embodiment Whole-Body Manipulation

📊 核心分析

HEX：面向跨形态全身操控的人形对齐专家系统 HEX: Humanoid-Aligned Experts for Cross-Embodiment Whole-Body Manipulation

📊 核心分析

HEX：面向跨形态全身操控的人形对齐专家系统
HEX: Humanoid-Aligned Experts for Cross-Embodiment Whole-Body Manipulation