- 解决**人形机器人-物体交互(HOI)** 中**高保真3D数据稀缺** 导致的瓶颈问题
- 现有基于**视频生成先验(video generative priors)** 的方法存在两个缺陷:
- **表征不对齐(Representation Misalignment)**:依赖几何先验(如显式CAD模型)
- **重定向复杂性(Retargeting Complexity)**:由于密集变形和形态不匹配而引入误差
- 提出**Imagine2Real** 框架,实现零样本(zero-shot)、几何无关的HOI
- 将机器人和物体的运动统一表示为**4D点轨迹(4D point trajectories)**,解决表征不对齐
- 设计**关键点跟踪器(Keypoints Tracker)**:仅跟踪稀疏关键点(基座、手、物体),完全绕过误差放大的重定向过程
- 利用**行为基础模型(Behavior Foundation Model, BFM)** 的**潜在空间(latent space)** 作为跟踪器的搜索域,在稀疏信号下维持自然步态
- 采用**渐进训练策略(progressive training strategy)**,仅用简单跟踪奖励学习鲁棒行为,实现运动捕捉系统中的零样本物理部署
- **零样本(zero-shot)与几何无关(geometry-free)**:无需预置CAD模型或标注数据,直接从视频生成先验学习交互
- **统一4D点轨迹表征**:将机器人本体与物体运动对齐,从根本上消除先验方法中的表征不对齐
- **稀疏关键点跟踪**:仅跟踪基座、手、物体三个关键点,避免传统重定向过程中的累积误差和形态匹配问题
- **BFM潜在空间约束**:利用行为基础模型保持低维自然运动先验,克服稀疏信号导致的步态异常,实现稳定物理仿真
- 提出首个**零样本人形机器人全身体交互框架**,突破数据稀缺限制
- 验证了**视频生成先验** 在机器人控制中的实用性,提供替代几何建模的新范式
- 通过**稀疏关键点+潜在空间搜索** 简化流程,显著降低工程复杂性,提升可部署性
- 在运动捕捉系统中实现直接物理部署,为未来人形机器人物体操作任务奠定基础