弥合具身差距：解耦的跨具身视频编辑

📝 论文摘要

从人类视频中学习机器人操作是解决机器人领域数据瓶颈的一个有前景的方案，但人类与机器人之间的分布偏移仍然是一个关键挑战。现有方法通常产生耦合表示，其中任务相关信息与人类特有的运动学特征纠缠在一起，限制了其适应性。我们提出了一个面向跨实体视频编辑的生成框架，通过显式学习解耦的任务和实体表示直接解决这一问题。该方法通过强制执行双重对比目标，将演示视频分解为两个正交的潜在空间：最小化两个空间之间的互信息以确保独立性，同时最大化空间内部一致性以创建稳定表示。一个参数高效的适配器将这些潜在编码注入冻结的视频扩散模型，从而能够从单个人类演示中合成连贯的机器人执行视频，无需成对的跨实体数据。实验表明，我们的方法生成了时间一致且形态准确的机器人演示，为利用互联网规模的人类视频进行机器人学习提供了可扩展的解决方案。

🎯 研究动机

- 解决**机器人学习(robot learning)** 中从人类视频迁移到机器人时的**具身差距(embodiment gap)** 问题 - 现有方法产生**纠缠表示(entangled representations)**，将任务信息与人类特定运动学耦合，限制了跨具身适应性 - 研究背景：人类视频数据丰富但分布偏移严重，缺乏解耦的跨具身视频编辑方法

🔧 核心方法

- 提出**解耦跨具身视频编辑(disentangled cross-embodiment video editing)** 生成式框架 - 通过**双重对比目标(dual contrastive objective)** 将演示视频分解为两个**正交潜在空间(orthogonal latent spaces)**：最小化空间间互信息确保独立性，最大化空间内一致性创建稳定表示 - 使用**参数高效适配器(parameter-efficient adapter)** 将解耦的潜在编码注入**冻结视频扩散模型(frozen video diffusion model)**，无需配对跨具身数据即可合成机器人执行视频

💡 核心创新

- **首创性**：首次实现**任务(task)** 与**具身(embodiment)** 表示的显式解耦，通过双重对比学习分离正交潜在空间 - **无需配对数据**：仅需单个人类演示即可生成连贯的机器人执行视频，突破跨具身数据收集瓶颈 - **参数高效适配器**：在冻结扩散模型基础上注入解耦编码，保持模型原有性能的同时实现可控视频编辑

🏆 总体贡献

- 为**机器人学习(robot learning)** 提供一种可扩展的范式：利用互联网规模人类视频生成机器人演示 - 生成的视频具有**时间一致性(temporal consistency)** 和**形态准确性(morphological accuracy)**，优于现有方法 - 填补了**跨具身视频编辑(cross-embodiment video editing)** 领域的空白，有望推动具身智能的数据驱动发展

弥合具身差距：解耦的跨具身视频编辑
Bridging the Embodiment Gap: Disentangled Cross-Embodiment Video Editing

📊 核心分析

弥合具身差距：解耦的跨具身视频编辑 Bridging the Embodiment Gap: Disentangled Cross-Embodiment Video Editing

📊 核心分析

弥合具身差距：解耦的跨具身视频编辑
Bridging the Embodiment Gap: Disentangled Cross-Embodiment Video Editing