Imagine2Real：通过视频生成先验实现零样本人形物体交互

📝 论文摘要

全身人形机器人-物体交互（HOI）受限于高保真3D数据的稀缺性。尽管视频生成先验提供了一种有前景的替代方案，但现有方法由于依赖几何先验（如显式CAD模型）而存在**表示不对齐**问题，并且因密集变形和形态不匹配而产生**重定向复杂性**。我们提出Imagine2Real，一种零样本HOI框架，用于进行灵活且无需几何模型的交互。为解决不对齐问题，我们将机器人和物体的运动统一为4D点轨迹。为克服重定向复杂性，我们的关键点跟踪器仅追踪稀疏的关键点（基座、手部和物体），完全绕过了会放大误差的重定向过程。为在稀疏信号下保持自然步态，我们利用行为基础模型（BFM）的潜在空间作为跟踪器的搜索域。通过渐进式训练策略，Imagine2Real凭借简单的跟踪奖励学习鲁棒行为，从而在动作捕捉（mocap）系统中实现零样本物理部署。

🎯 研究动机

- 解决**人形机器人-物体交互(HOI)** 中**高保真3D数据稀缺** 导致的瓶颈问题 - 现有基于**视频生成先验(video generative priors)** 的方法存在两个缺陷： - **表征不对齐(Representation Misalignment)**：依赖几何先验（如显式CAD模型） - **重定向复杂性(Retargeting Complexity)**：由于密集变形和形态不匹配而引入误差

🔧 核心方法

- 提出**Imagine2Real** 框架，实现零样本(zero-shot)、几何无关的HOI - 将机器人和物体的运动统一表示为**4D点轨迹(4D point trajectories)**，解决表征不对齐 - 设计**关键点跟踪器(Keypoints Tracker)**：仅跟踪稀疏关键点（基座、手、物体），完全绕过误差放大的重定向过程 - 利用**行为基础模型(Behavior Foundation Model, BFM)** 的**潜在空间(latent space)** 作为跟踪器的搜索域，在稀疏信号下维持自然步态 - 采用**渐进训练策略(progressive training strategy)**，仅用简单跟踪奖励学习鲁棒行为，实现运动捕捉系统中的零样本物理部署

💡 核心创新

- **零样本(zero-shot)与几何无关(geometry-free)**：无需预置CAD模型或标注数据，直接从视频生成先验学习交互 - **统一4D点轨迹表征**：将机器人本体与物体运动对齐，从根本上消除先验方法中的表征不对齐 - **稀疏关键点跟踪**：仅跟踪基座、手、物体三个关键点，避免传统重定向过程中的累积误差和形态匹配问题 - **BFM潜在空间约束**：利用行为基础模型保持低维自然运动先验，克服稀疏信号导致的步态异常，实现稳定物理仿真

🏆 总体贡献

- 提出首个**零样本人形机器人全身体交互框架**，突破数据稀缺限制 - 验证了**视频生成先验** 在机器人控制中的实用性，提供替代几何建模的新范式 - 通过**稀疏关键点+潜在空间搜索** 简化流程，显著降低工程复杂性，提升可部署性 - 在运动捕捉系统中实现直接物理部署，为未来人形机器人物体操作任务奠定基础

Imagine2Real：通过视频生成先验实现零样本人形物体交互
Imagine2Real: Towards Zero-shot Humanoid-Object Interaction via Video Generative Priors

📊 核心分析

Imagine2Real：通过视频生成先验实现零样本人形物体交互 Imagine2Real: Towards Zero-shot Humanoid-Object Interaction via Video Generative Priors

📊 核心分析

Imagine2Real：通过视频生成先验实现零样本人形物体交互
Imagine2Real: Towards Zero-shot Humanoid-Object Interaction via Video Generative Priors