← 返回论文列表

Imagine2Real:通过视频生成先验实现零样本人形物体交互
Imagine2Real: Towards Zero-shot Humanoid-Object Interaction via Video Generative Priors

作者: Jiahe Chen, ZiRui Wang, Feiyu Jia 等10人
arXiv: 2605.22272v1
分类: cs.RO, cs.CV
📝 论文摘要
全身人形机器人-物体交互(HOI)受限于高保真3D数据的稀缺性。尽管视频生成先验提供了一种有前景的替代方案,但现有方法由于依赖几何先验(如显式CAD模型)而存在**表示不对齐**问题,并且因密集变形和形态不匹配而产生**重定向复杂性**。我们提出Imagine2Real,一种零样本HOI框架,用于进行灵活且无需几何模型的交互。为解决不对齐问题,我们将机器人和物体的运动统一为4D点轨迹。为克服重定向复杂性,我们的关键点跟踪器仅追踪稀疏的关键点(基座、手部和物体),完全绕过了会放大误差的重定向过程。为在稀疏信号下保持自然步态,我们利用行为基础模型(BFM)的潜在空间作为跟踪器的搜索域。通过渐进式训练策略,Imagine2Real凭借简单的跟踪奖励学习鲁棒行为,从而在动作捕捉(mocap)系统中实现零样本物理部署。

📊 核心分析

🎯 研究动机
- 解决**人形机器人-物体交互(HOI)** 中**高保真3D数据稀缺** 导致的瓶颈问题 - 现有基于**视频生成先验(video generative priors)** 的方法存在两个缺陷: - **表征不对齐(Representation Misalignment)**:依赖几何先验(如显式CAD模型) - **重定向复杂性(Retargeting Complexity)**:由于密集变形和形态不匹配而引入误差
🔧 核心方法
- 提出**Imagine2Real** 框架,实现零样本(zero-shot)、几何无关的HOI - 将机器人和物体的运动统一表示为**4D点轨迹(4D point trajectories)**,解决表征不对齐 - 设计**关键点跟踪器(Keypoints Tracker)**:仅跟踪稀疏关键点(基座、手、物体),完全绕过误差放大的重定向过程 - 利用**行为基础模型(Behavior Foundation Model, BFM)** 的**潜在空间(latent space)** 作为跟踪器的搜索域,在稀疏信号下维持自然步态 - 采用**渐进训练策略(progressive training strategy)**,仅用简单跟踪奖励学习鲁棒行为,实现运动捕捉系统中的零样本物理部署
💡 核心创新
- **零样本(zero-shot)与几何无关(geometry-free)**:无需预置CAD模型或标注数据,直接从视频生成先验学习交互 - **统一4D点轨迹表征**:将机器人本体与物体运动对齐,从根本上消除先验方法中的表征不对齐 - **稀疏关键点跟踪**:仅跟踪基座、手、物体三个关键点,避免传统重定向过程中的累积误差和形态匹配问题 - **BFM潜在空间约束**:利用行为基础模型保持低维自然运动先验,克服稀疏信号导致的步态异常,实现稳定物理仿真
🏆 总体贡献
- 提出首个**零样本人形机器人全身体交互框架**,突破数据稀缺限制 - 验证了**视频生成先验** 在机器人控制中的实用性,提供替代几何建模的新范式 - 通过**稀疏关键点+潜在空间搜索** 简化流程,显著降低工程复杂性,提升可部署性 - 在运动捕捉系统中实现直接物理部署,为未来人形机器人物体操作任务奠定基础