- 现有**视觉-语言-动作(VLA)** 模型从大规模人类视频中学习时,由于人机跨具身差异(视觉观察和可执行动作),导致策略泛化困难
- 潜在动作模型虽解决了动作执行差距,但视觉特征不对齐使策略输入不一致,产生领域依赖的潜在动作,阻碍了人类视频的有效联合训练
- 需要一种**人-机器人对齐(human-robot aligned)** 表示学习方法,以减少跨具身视觉表征差异,从而更好地利用人类视频进行VLA预训练
- 提出**HARP框架**,利用少量**配对的人-机器人演示** 作为跨具身桥梁,并利用大量非配对人类和机器人视频作为可扩展的动态监督数据
- 训练一个**机器人适配的视觉编码器** 和**潜在动作模型**,引入**操纵中心辅助线索(manipulation-centric auxiliary cues)** 和**源相对配对判别对齐损失(source-relative pair-discriminative alignment loss)**
- 对齐后的视觉编码器和潜在动作模型提供统一的视觉和动作表示,用于VLA策略学习;人类和机器人视频提供**视觉-语言到潜在动作** 的监督,轻量级机器人动作头将潜在动作转换为可执行命令
- **首次** 提出**人-机器人对齐表示学习框架**,通过配对演示作为桥梁,联合对齐视觉和潜在动作表示
- 设计**源相对配对判别对齐损失**,在适应机器人表示向人类语义的同时,保持配对级别的判别性,避免过度对齐
- 引入**操纵中心辅助线索** (如物体交互区域),增强对齐的语义相关性,提升跨具身迁移效果
- 实现**端到端(end-to-end)** 的对齐训练,无需显式解耦或手工规则,直接利用非配对视频进行动态监督
- 为解决跨具身VLA模型中的视觉表示不一致问题提供了**新范式**,显著提升了从人类视频中学习策略的效率
- 在**CALVIN ABC→D** 任务上达到**4.481平均长度**,在真实世界操作任务上相对于最强基线提升**7.1%** 成功率,验证了方法的有效性
- 通过**特征可视化(feature visualization)**、仿真和真实实验,展示了改进的人-机器人对齐效果,为后续研究提供了可复现的框架