从大规模人类演示中学习人类意图先验以用于机器人操作

📝 论文摘要

人类视频包含丰富的操作先验知识，但将其用于机器人学习仍具挑战性，因为原始观测数据混杂了场景理解、人体运动及具身化动作。我们提出 MoT-HRA，一种从大规模人类演示中学习人类意图先验的分层视觉-语言-动作框架。首先构建 HA-2.2M 数据集，该数据集包含 220 万条动作-语言样本，通过手部中心过滤、空间重建、时序分割及语言对齐从异构人类视频中重建得到。基于此数据集，MoT-HRA 将操作分解为三个耦合模块：视觉-语言模块预测与具身无关的 3D 轨迹，意图模块将 MANO 风格手部运动建模为潜在人类运动先验，精细模块将意图感知表征映射为机器人动作片段。共享注意力主干与只读键值传输机制使下游控制能够利用人类先验，同时限制对上游表征的干扰。在手部运动生成、仿真操作及真实世界机器人任务上的实验表明，MoT-HRA 在分布偏移下提升了运动合理性与鲁棒控制能力。

🎯 研究动机

- 人类视频包含丰富的**操作先验(manipulation priors)**，但直接用于机器人学习非常困难 - 原始观察纠缠了**场景理解(scene understanding)**、**人类运动(human motion)**和**具体动作(embodiment-specific action)**，难以解耦 - 现有方法缺乏从异构人类视频中提取**人类意图先验(human-intention priors)**的有效手段

🔧 核心方法

- 提出**MoT-HRA框架**，一个层次化的**视觉-语言-动作(Vision-Language-Action, VLA)**框架，将操作分解为三个耦合专家 - 视觉-语言专家预测与具体本体无关的**3D轨迹**；意图专家将**MANO风格手部运动**建模为潜在的人类运动先验；精细专家将意图感知表示映射到**机器人动作块(robot action chunks)** - 使用**共享注意力主干(shared-attention trunk)**和**只读键值传输(read-only key-value transfer)**，使下游控制利用人类先验同时限制对上游表示的干扰 - 首先整理**HA-2.2M数据集**，一个包含220万条动作语言片段的大规模数据集，通过手部中心滤波、空间重构、时间分割和语言对齐从异构人类视频重建

💡 核心创新

- **首创性**：首次将**人类意图先验(human-intention priors)**分解为三个耦合的专家模块，分别处理3D轨迹、手部运动和执行动作 - **只读键值传输机制**：创新性地使下游控制能够利用人类先验，同时避免对上游表示造成干扰，保持层次结构的独立性 - **大规模异构数据利用**：通过精心设计的数据重建流程（HA-2.2M），从多种异构人类视频中提取可迁移的**动作-语言**对，解决数据不一致问题 - **跨领域泛化**：支持从**手部运动生成(hand motion generation)**到**模拟操作(simulated manipulation)**和**真实机器人任务(real-world robot)**的迁移

🏆 总体贡献

- 提供了一种从**大规模人类演示(large-scale human demonstrations)**中学习可迁移操作先验的新范式 - 在多个基准任务上验证了有效性，显著提升了**运动合理性(motion plausibility)**和**分布漂移下的鲁棒控制能力** - 构建并开源了**HA-2.2M数据集**，为后续研究提供重要资源 - 提出了**MoT-HRA框架**，为机器人操作中融合人类先验与具身控制提供了通用解决方案

从大规模人类演示中学习人类意图先验以用于机器人操作
Learning Human-Intention Priors from Large-Scale Human Demonstrations for Robotic Manipulation

📊 核心分析

从大规模人类演示中学习人类意图先验以用于机器人操作 Learning Human-Intention Priors from Large-Scale Human Demonstrations for Robotic Manipulation

📊 核心分析

从大规模人类演示中学习人类意图先验以用于机器人操作
Learning Human-Intention Priors from Large-Scale Human Demonstrations for Robotic Manipulation