- 解决**以自我为中心的人类视频(egocentric human video)** 预训练模型性能始终低于**机器人数据(robot data)** 预训练模型的问题
- 归因于缺失关键信号:**主动感知(active perception)**,即人类在操作中不断调整视角,导致相机运动被现有流程当作噪声
- 背景:自我中心人类视频是机器人预训练的可扩展替代数据源,但存在显著性能差距
- 提出**ActiveMimic** 框架,从单个**人体佩戴RGB相机** 恢复同步的**相机轨迹(camera trajectory)** 和**手腕轨迹(wrist trajectory)**
- 将相机运动建模为**视角动作(viewpoint action)**,并联合学习**主动感知(active perception)** 和**操作(manipulation)**
- 在野外自我中心人类视频上预训练,再适应到目标机器人平台
- **首次显式建模视角动作**:将自我中心视频中的**相机运动** 作为关键预训练信号而非噪声,与手腕动作联合学习
- **跨域性能突破**:使自我中心人类视频预训练在真实机器人任务上首次匹配**机器人数据预训练** 的SOTA(state-of-the-art)性能
- **因果归因分析**:通过实验证明**主动感知能力** 源自人类视频预训练而非机器人特定微调,确认了主动感知是解锁人类视频预训练潜力的关键
- 提出一种利用自我中心人类视频进行机器人预训练的**新范式**,填补了与机器人数据预训练之间的性能鸿沟
- 在多个具有不同主动感知需求的实际机器人任务中一致超越人类视频预训练基线,并匹配机器人数据预训练的最优模型
- 提供了**分析证据** 表明主动感知能力源自预训练阶段,为未来研究指明方向——重视**主动感知信号** 在视觉-动作学习中的作用