← 返回论文列表

从大规模人类演示中学习人类意图先验以用于机器人操作
Learning Human-Intention Priors from Large-Scale Human Demonstrations for Robotic Manipulation

作者: Yifan Xie, YuAn Wang, Guangyu Chen 等6人
arXiv: 2604.24681v1
分类: cs.RO
📝 论文摘要
人类视频包含丰富的操作先验知识,但将其用于机器人学习仍具挑战性,因为原始观测数据混杂了场景理解、人体运动及具身化动作。我们提出 MoT-HRA,一种从大规模人类演示中学习人类意图先验的分层视觉-语言-动作框架。首先构建 HA-2.2M 数据集,该数据集包含 220 万条动作-语言样本,通过手部中心过滤、空间重建、时序分割及语言对齐从异构人类视频中重建得到。基于此数据集,MoT-HRA 将操作分解为三个耦合模块:视觉-语言模块预测与具身无关的 3D 轨迹,意图模块将 MANO 风格手部运动建模为潜在人类运动先验,精细模块将意图感知表征映射为机器人动作片段。共享注意力主干与只读键值传输机制使下游控制能够利用人类先验,同时限制对上游表征的干扰。在手部运动生成、仿真操作及真实世界机器人任务上的实验表明,MoT-HRA 在分布偏移下提升了运动合理性与鲁棒控制能力。

📊 核心分析

🎯 研究动机
- 人类视频包含丰富的**操作先验(manipulation priors)**,但直接用于机器人学习非常困难 - 原始观察纠缠了**场景理解(scene understanding)**、**人类运动(human motion)**和**具体动作(embodiment-specific action)**,难以解耦 - 现有方法缺乏从异构人类视频中提取**人类意图先验(human-intention priors)**的有效手段
🔧 核心方法
- 提出**MoT-HRA框架**,一个层次化的**视觉-语言-动作(Vision-Language-Action, VLA)**框架,将操作分解为三个耦合专家 - 视觉-语言专家预测与具体本体无关的**3D轨迹**;意图专家将**MANO风格手部运动**建模为潜在的人类运动先验;精细专家将意图感知表示映射到**机器人动作块(robot action chunks)** - 使用**共享注意力主干(shared-attention trunk)**和**只读键值传输(read-only key-value transfer)**,使下游控制利用人类先验同时限制对上游表示的干扰 - 首先整理**HA-2.2M数据集**,一个包含220万条动作语言片段的大规模数据集,通过手部中心滤波、空间重构、时间分割和语言对齐从异构人类视频重建
💡 核心创新
- **首创性**:首次将**人类意图先验(human-intention priors)**分解为三个耦合的专家模块,分别处理3D轨迹、手部运动和执行动作 - **只读键值传输机制**:创新性地使下游控制能够利用人类先验,同时避免对上游表示造成干扰,保持层次结构的独立性 - **大规模异构数据利用**:通过精心设计的数据重建流程(HA-2.2M),从多种异构人类视频中提取可迁移的**动作-语言**对,解决数据不一致问题 - **跨领域泛化**:支持从**手部运动生成(hand motion generation)**到**模拟操作(simulated manipulation)**和**真实机器人任务(real-world robot)**的迁移
🏆 总体贡献
- 提供了一种从**大规模人类演示(large-scale human demonstrations)**中学习可迁移操作先验的新范式 - 在多个基准任务上验证了有效性,显著提升了**运动合理性(motion plausibility)**和**分布漂移下的鲁棒控制能力** - 构建并开源了**HA-2.2M数据集**,为后续研究提供重要资源 - 提出了**MoT-HRA框架**,为机器人操作中融合人类先验与具身控制提供了通用解决方案