- 人形机器人控制系统在建模机器人与环境、任务物体之间的**流畅交互(fluent interaction)** 行为方面存在根本性挑战
- 现有监督方法难以同时大规模捕获**空间上下文(spatial context)**、**时间动态(temporal dynamics)**、机器人动作和任务意图
- 常规监督模式与交互行为的高维、多模态特性不匹配
- 提出**ExoActor** 框架,利用大规模**视频生成模型(video generation model)** 的泛化能力
- 以**第三人称视频生成(exocentric video generation)** 作为统一接口,输入任务指令和场景上下文,合成隐式编码交互协调的执行过程视频
- 通过**人体运动估计(human motion estimation)** 和**通用运动控制器(general motion controller)** 将视频输出转化为可执行的类人行为序列
- **首创性**:首次将**第三人称视频生成(exocentric video generation)** 作为人形机器人控制的统一接口,替代传统多模态监督
- **隐式编码**:视频生成过程隐式捕获了机器人与环境、物体之间的**协调交互(coordinated interaction)**,无需显式建模
- **零样本泛化(zero-shot generalization)**:无需额外真实世界数据即可泛化到新场景,具备通用性
- 提供了一种**可扩展的方法(scalable approach)** 建模交互丰富的人形机器人行为
- 在标准基准上验证了**端到端(end-to-end)** 系统的有效性,展示了泛化能力
- 可能开辟**生成模型推动通用人形智能(general-purpose humanoid intelligence)** 的新途径,并指出现有局限和未来方向