该论文旨在解决语言条件化机器人操作中的轨迹生成问题。研究背景是:
- 现有方法需要大量机器人本体数据训练,成本高昂
- 从操作前图像和自然语言指令生成物体轨迹时,存在指令与光流对齐的挑战
- 需要能够利用人类和网络视频进行训练,减少对机器人本体数据的依赖
论文提出了基于光流的语言指令引导开环动作生成器(LILAC),这是一个基于光流的视觉-语言-动作模型(VLA):
- 从RGB图像和自然语言指令生成以物体为中心的2D光流(optical flow)
- 将2D光流转换为6自由度(6-DoF)机械臂轨迹
- 包含两个关键组件:语义对齐损失(Semantic Alignment Loss)增强语言条件化,确保生成与指令对齐的光流;提示条件化跨模态适配器(Prompt-Conditioned Cross-Modal Adapter)对齐学习的视觉提示与图像和文本特征,为光流生成提供丰富线索
论文的核心创新点包括:
- 首次提出基于光流的语言条件化开环轨迹生成框架,将视觉-语言-动作模型(VLA)与光流生成相结合
- 设计了语义对齐损失(Semantic Alignment Loss),专门解决指令与生成光流之间的对齐问题,这是现有方法未充分考虑的
- 引入了提示条件化跨模态适配器(Prompt-Conditioned Cross-Modal Adapter),通过学习的视觉提示桥接图像和文本模态,提供更丰富的跨模态线索
- 实现了从2D光流到6-DoF机器人轨迹的转换,仅需少量机器人本体数据即可训练,显著降低了数据需求
论文对该领域的整体贡献是:
- 提出了一种新的语言条件化机器人操作框架LILAC,在多个基准测试中生成的光流质量优于现有方法
- 在自由形式指令的物理物体操作实验中,实现了比现有方法更高的任务成功率
- 展示了利用人类和网络视频进行训练的可能性,减少了对昂贵机器人本体数据的依赖
- 为视觉-语言-动作模型(VLA)在机器人操作中的应用提供了新思路,特别是将光流作为中间表示连接感知与动作