ActiveMimic：基于主动感知的自我中心视频预训练

📝 论文摘要

自我中心人类视频为机器人数据的预训练提供了可扩展的替代方案，但基于此类视频预训练的模型表现始终不如基于机器人数据预训练的模型。我们将这一差距归因于缺失的信号——自我中心视频中的主动感知行为，即人类在操作过程中持续调整自身视角，从而引发标准流程视为噪声的相机运动。为解决这一问题，我们提出ActiveMimic预训练框架：该框架从单个体戴式RGB相机恢复同步的相机与手腕轨迹，将相机运动建模为视角动作，并在适应目标机器人之前，从野外自我中心人类视频中联合学习主动感知与操作。实验表明，在具有不同主动感知需求的任务中，ActiveMimic始终优于基于人类视频预训练的基线模型，且与基于机器人数据预训练的先进模型性能相当。进一步分析证实，主动感知能力源于自我中心人类视频预训练而非机器人特定微调，从而确认主动感知是释放自我中心人类视频用于机器人预训练的关键。

🎯 研究动机

- 解决**以自我为中心的人类视频(egocentric human video)** 预训练模型性能始终低于**机器人数据(robot data)** 预训练模型的问题 - 归因于缺失关键信号：**主动感知(active perception)**，即人类在操作中不断调整视角，导致相机运动被现有流程当作噪声 - 背景：自我中心人类视频是机器人预训练的可扩展替代数据源，但存在显著性能差距

🔧 核心方法

- 提出**ActiveMimic** 框架，从单个**人体佩戴RGB相机** 恢复同步的**相机轨迹(camera trajectory)** 和**手腕轨迹(wrist trajectory)** - 将相机运动建模为**视角动作(viewpoint action)**，并联合学习**主动感知(active perception)** 和**操作(manipulation)** - 在野外自我中心人类视频上预训练，再适应到目标机器人平台

💡 核心创新

- **首次显式建模视角动作**：将自我中心视频中的**相机运动** 作为关键预训练信号而非噪声，与手腕动作联合学习 - **跨域性能突破**：使自我中心人类视频预训练在真实机器人任务上首次匹配**机器人数据预训练** 的SOTA(state-of-the-art)性能 - **因果归因分析**：通过实验证明**主动感知能力** 源自人类视频预训练而非机器人特定微调，确认了主动感知是解锁人类视频预训练潜力的关键

🏆 总体贡献

- 提出一种利用自我中心人类视频进行机器人预训练的**新范式**，填补了与机器人数据预训练之间的性能鸿沟 - 在多个具有不同主动感知需求的实际机器人任务中一致超越人类视频预训练基线，并匹配机器人数据预训练的最优模型 - 提供了**分析证据** 表明主动感知能力源自预训练阶段，为未来研究指明方向——重视**主动感知信号** 在视觉-动作学习中的作用

ActiveMimic：基于主动感知的自我中心视频预训练
ActiveMimic: Egocentric Video Pretraining with Active Perception

📊 核心分析

ActiveMimic：基于主动感知的自我中心视频预训练 ActiveMimic: Egocentric Video Pretraining with Active Perception

📊 核心分析

ActiveMimic：基于主动感知的自我中心视频预训练
ActiveMimic: Egocentric Video Pretraining with Active Perception