- 解决**机器人学习(robot learning)** 中从人类视频迁移到机器人时的**具身差距(embodiment gap)** 问题
- 现有方法产生**纠缠表示(entangled representations)**,将任务信息与人类特定运动学耦合,限制了跨具身适应性
- 研究背景:人类视频数据丰富但分布偏移严重,缺乏解耦的跨具身视频编辑方法
- 提出**解耦跨具身视频编辑(disentangled cross-embodiment video editing)** 生成式框架
- 通过**双重对比目标(dual contrastive objective)** 将演示视频分解为两个**正交潜在空间(orthogonal latent spaces)**:最小化空间间互信息确保独立性,最大化空间内一致性创建稳定表示
- 使用**参数高效适配器(parameter-efficient adapter)** 将解耦的潜在编码注入**冻结视频扩散模型(frozen video diffusion model)**,无需配对跨具身数据即可合成机器人执行视频
- **首创性**:首次实现**任务(task)** 与**具身(embodiment)** 表示的显式解耦,通过双重对比学习分离正交潜在空间
- **无需配对数据**:仅需单个人类演示即可生成连贯的机器人执行视频,突破跨具身数据收集瓶颈
- **参数高效适配器**:在冻结扩散模型基础上注入解耦编码,保持模型原有性能的同时实现可控视频编辑
- 为**机器人学习(robot learning)** 提供一种可扩展的范式:利用互联网规模人类视频生成机器人演示
- 生成的视频具有**时间一致性(temporal consistency)** 和**形态准确性(morphological accuracy)**,优于现有方法
- 填补了**跨具身视频编辑(cross-embodiment video editing)** 领域的空白,有望推动具身智能的数据驱动发展