HARP-VLA：面向视觉-语言-动作模型的人机对齐表示学习

📝 论文摘要

从大规模人类视频中学习可泛化的视觉-语言-动作（VLA）模型具有前景但充满挑战，原因在于视觉观察和可执行动作均存在跨实体差异。尽管潜在动作模型通过学习动作抽象减少了动作执行差距，但其仍依赖于视觉特征。因此，人类与机器人视觉表征的不对齐可能导致策略输入不一致，并诱发领域相关的潜在动作，阻碍人类视频的有效协同训练。为解决这一问题，我们提出HARP——一种面向人类-机器人对齐的表征学习框架，用于从人类视频中进行更有效的VLA预训练。具体而言，HARP利用有限配对的示教视频作为跨实体桥梁，并通过丰富未配对的人类与机器人视频作为可扩展的动力学监督数据源。它训练了一个机器人适配的视觉编码器和一个潜在动作模型，结合以操作为中心的辅助线索与源相对配对判别对齐损失，使机器人表征适配人类语义的同时保持配对级判别性。学习得到的对齐视觉编码器和潜在动作模型为VLA式策略学习提供了统一的视觉与动作表征，其中人类与机器人视频提供视觉-语言-潜在动作监督，轻量级机器人动作头则将潜在动作解码为可执行指令。在特征可视化、仿真和真实世界操作实验结果表明，该方法提升了人-机对齐度及下游策略性能，在CALVIN ABC→D任务上达到4.481的平均长度，并在真实世界成功率上相较最强基线提升7.1%。

🎯 研究动机

- 现有**视觉-语言-动作(VLA)** 模型从大规模人类视频中学习时，由于人机跨具身差异（视觉观察和可执行动作），导致策略泛化困难 - 潜在动作模型虽解决了动作执行差距，但视觉特征不对齐使策略输入不一致，产生领域依赖的潜在动作，阻碍了人类视频的有效联合训练 - 需要一种**人-机器人对齐(human-robot aligned)** 表示学习方法，以减少跨具身视觉表征差异，从而更好地利用人类视频进行VLA预训练

🔧 核心方法

- 提出**HARP框架**，利用少量**配对的人-机器人演示** 作为跨具身桥梁，并利用大量非配对人类和机器人视频作为可扩展的动态监督数据 - 训练一个**机器人适配的视觉编码器** 和**潜在动作模型**，引入**操纵中心辅助线索(manipulation-centric auxiliary cues)** 和**源相对配对判别对齐损失(source-relative pair-discriminative alignment loss)** - 对齐后的视觉编码器和潜在动作模型提供统一的视觉和动作表示，用于VLA策略学习；人类和机器人视频提供**视觉-语言到潜在动作** 的监督，轻量级机器人动作头将潜在动作转换为可执行命令

💡 核心创新

- **首次** 提出**人-机器人对齐表示学习框架**，通过配对演示作为桥梁，联合对齐视觉和潜在动作表示 - 设计**源相对配对判别对齐损失**，在适应机器人表示向人类语义的同时，保持配对级别的判别性，避免过度对齐 - 引入**操纵中心辅助线索** （如物体交互区域），增强对齐的语义相关性，提升跨具身迁移效果 - 实现**端到端(end-to-end)** 的对齐训练，无需显式解耦或手工规则，直接利用非配对视频进行动态监督

🏆 总体贡献

- 为解决跨具身VLA模型中的视觉表示不一致问题提供了**新范式**，显著提升了从人类视频中学习策略的效率 - 在**CALVIN ABC→D** 任务上达到**4.481平均长度**，在真实世界操作任务上相对于最强基线提升**7.1%** 成功率，验证了方法的有效性 - 通过**特征可视化(feature visualization)**、仿真和真实实验，展示了改进的人-机器人对齐效果，为后续研究提供了可复现的框架

HARP-VLA：面向视觉-语言-动作模型的人机对齐表示学习
HARP-VLA: Human-Robot Aligned Representation Learning for Vision-Language-Action Model

📊 核心分析

HARP-VLA：面向视觉-语言-动作模型的人机对齐表示学习 HARP-VLA: Human-Robot Aligned Representation Learning for Vision-Language-Action Model

📊 核心分析

HARP-VLA：面向视觉-语言-动作模型的人机对齐表示学习
HARP-VLA: Human-Robot Aligned Representation Learning for Vision-Language-Action Model