- 人类视频包含丰富的**操作先验(manipulation priors)**,但直接用于机器人学习非常困难
- 原始观察纠缠了**场景理解(scene understanding)**、**人类运动(human motion)**和**具体动作(embodiment-specific action)**,难以解耦
- 现有方法缺乏从异构人类视频中提取**人类意图先验(human-intention priors)**的有效手段
- 提出**MoT-HRA框架**,一个层次化的**视觉-语言-动作(Vision-Language-Action, VLA)**框架,将操作分解为三个耦合专家
- 视觉-语言专家预测与具体本体无关的**3D轨迹**;意图专家将**MANO风格手部运动**建模为潜在的人类运动先验;精细专家将意图感知表示映射到**机器人动作块(robot action chunks)**
- 使用**共享注意力主干(shared-attention trunk)**和**只读键值传输(read-only key-value transfer)**,使下游控制利用人类先验同时限制对上游表示的干扰
- 首先整理**HA-2.2M数据集**,一个包含220万条动作语言片段的大规模数据集,通过手部中心滤波、空间重构、时间分割和语言对齐从异构人类视频重建
- **首创性**:首次将**人类意图先验(human-intention priors)**分解为三个耦合的专家模块,分别处理3D轨迹、手部运动和执行动作
- **只读键值传输机制**:创新性地使下游控制能够利用人类先验,同时避免对上游表示造成干扰,保持层次结构的独立性
- **大规模异构数据利用**:通过精心设计的数据重建流程(HA-2.2M),从多种异构人类视频中提取可迁移的**动作-语言**对,解决数据不一致问题
- **跨领域泛化**:支持从**手部运动生成(hand motion generation)**到**模拟操作(simulated manipulation)**和**真实机器人任务(real-world robot)**的迁移
- 提供了一种从**大规模人类演示(large-scale human demonstrations)**中学习可迁移操作先验的新范式
- 在多个基准任务上验证了有效性,显著提升了**运动合理性(motion plausibility)**和**分布漂移下的鲁棒控制能力**
- 构建并开源了**HA-2.2M数据集**,为后续研究提供重要资源
- 提出了**MoT-HRA框架**,为机器人操作中融合人类先验与具身控制提供了通用解决方案