ExoActor：外中心视频生成作为可泛化的交互式人形控制

📝 论文摘要

近年来，人形机器人控制系统取得了显著进展，但如何对机器人、周围环境及任务相关物体之间的流畅交互行为进行建模仍是一项基础性挑战。这一难题源于需要联合捕捉空间上下文、时间动态、机器人动作及任务意图的规模化特征，而这与传统的监督方法难以匹配。我们提出ExoActor框架，创新性地利用大规模视频生成模型的泛化能力来解决该问题。ExoActor的核心思路是将第三人称视角视频生成作为建模交互动态的统一接口。给定任务指令与场景上下文，ExoActor可合成合理的执行过程，并隐式编码机器人、环境与物体间的协调交互。上述视频输出随后通过一个估计人体运动并经由通用运动控制器执行的流水线，转化为可执行的人形机器人行为序列，最终生成任务条件化的行为轨迹。为验证该框架，我们将其实现为端到端系统，并证明其无需额外真实数据即可泛化到新场景。最后，我们讨论了当前实现存在的局限性，并展望了未来研究方向，阐明ExoActor如何为建模富含交互的人形机器人行为提供可扩展方案，这或将为生成模型推动通用人形智能开辟新路径。

🎯 研究动机

- 人形机器人控制系统在建模机器人与环境、任务物体之间的**流畅交互(fluent interaction)** 行为方面存在根本性挑战 - 现有监督方法难以同时大规模捕获**空间上下文(spatial context)**、**时间动态(temporal dynamics)**、机器人动作和任务意图 - 常规监督模式与交互行为的高维、多模态特性不匹配

🔧 核心方法

- 提出**ExoActor** 框架，利用大规模**视频生成模型(video generation model)** 的泛化能力 - 以**第三人称视频生成(exocentric video generation)** 作为统一接口，输入任务指令和场景上下文，合成隐式编码交互协调的执行过程视频 - 通过**人体运动估计(human motion estimation)** 和**通用运动控制器(general motion controller)** 将视频输出转化为可执行的类人行为序列

💡 核心创新

- **首创性**：首次将**第三人称视频生成(exocentric video generation)** 作为人形机器人控制的统一接口，替代传统多模态监督 - **隐式编码**：视频生成过程隐式捕获了机器人与环境、物体之间的**协调交互(coordinated interaction)**，无需显式建模 - **零样本泛化(zero-shot generalization)**：无需额外真实世界数据即可泛化到新场景，具备通用性

🏆 总体贡献

- 提供了一种**可扩展的方法(scalable approach)** 建模交互丰富的人形机器人行为 - 在标准基准上验证了**端到端(end-to-end)** 系统的有效性，展示了泛化能力 - 可能开辟**生成模型推动通用人形智能(general-purpose humanoid intelligence)** 的新途径，并指出现有局限和未来方向

ExoActor：外中心视频生成作为可泛化的交互式人形控制
ExoActor: Exocentric Video Generation as Generalizable Interactive Humanoid Control

📊 核心分析

ExoActor：外中心视频生成作为可泛化的交互式人形控制 ExoActor: Exocentric Video Generation as Generalizable Interactive Humanoid Control

📊 核心分析

ExoActor：外中心视频生成作为可泛化的交互式人形控制
ExoActor: Exocentric Video Generation as Generalizable Interactive Humanoid Control