LILAC：面向开环轨迹生成的语言条件化物体中心光流

📝 论文摘要

我们提出了一种基于流轨迹生成的语言条件机器人操控方法，该方法可利用人类及网络上的物体操控视频进行训练，仅需极少量的实体特定数据。这项任务具有挑战性，因为从操控前图像和自然语言指令生成物体轨迹需要实现指令与流的精准对齐。为解决这一难题，我们提出了基于流的语言指令引导开环动作生成器（LILAC）。这个基于流的视觉-语言-动作模型通过RGB图像和自然语言指令生成以物体为中心的二维光流，并将光流转换为六自由度机械臂轨迹。LILAC包含两个核心组件：语义对齐损失通过强化语言条件约束来生成与指令对齐的光流；提示条件跨模态适配器将学习到的视觉提示与图像文本特征对齐，为光流生成提供丰富线索。实验表明，我们的方法在多个基准测试中的光流生成质量优于现有方法。此外，在使用自由形式指令的实体物体操控实验中，LILAC相比现有方法展现出更高的任务成功率。项目页面详见 https://lilac-75srg.kinsta.page/。

🎯 研究动机

该论文旨在解决语言条件化机器人操作中的轨迹生成问题。研究背景是： - 现有方法需要大量机器人本体数据训练，成本高昂 - 从操作前图像和自然语言指令生成物体轨迹时，存在指令与光流对齐的挑战 - 需要能够利用人类和网络视频进行训练，减少对机器人本体数据的依赖

🔧 核心方法

论文提出了基于光流的语言指令引导开环动作生成器(LILAC)，这是一个基于光流的视觉-语言-动作模型(VLA)： - 从RGB图像和自然语言指令生成以物体为中心的2D光流(optical flow) - 将2D光流转换为6自由度(6-DoF)机械臂轨迹 - 包含两个关键组件：语义对齐损失(Semantic Alignment Loss)增强语言条件化，确保生成与指令对齐的光流；提示条件化跨模态适配器(Prompt-Conditioned Cross-Modal Adapter)对齐学习的视觉提示与图像和文本特征，为光流生成提供丰富线索

💡 核心创新

论文的核心创新点包括： - 首次提出基于光流的语言条件化开环轨迹生成框架，将视觉-语言-动作模型(VLA)与光流生成相结合 - 设计了语义对齐损失(Semantic Alignment Loss)，专门解决指令与生成光流之间的对齐问题，这是现有方法未充分考虑的 - 引入了提示条件化跨模态适配器(Prompt-Conditioned Cross-Modal Adapter)，通过学习的视觉提示桥接图像和文本模态，提供更丰富的跨模态线索 - 实现了从2D光流到6-DoF机器人轨迹的转换，仅需少量机器人本体数据即可训练，显著降低了数据需求

🏆 总体贡献

论文对该领域的整体贡献是： - 提出了一种新的语言条件化机器人操作框架LILAC，在多个基准测试中生成的光流质量优于现有方法 - 在自由形式指令的物理物体操作实验中，实现了比现有方法更高的任务成功率 - 展示了利用人类和网络视频进行训练的可能性，减少了对昂贵机器人本体数据的依赖 - 为视觉-语言-动作模型(VLA)在机器人操作中的应用提供了新思路，特别是将光流作为中间表示连接感知与动作

LILAC：面向开环轨迹生成的语言条件化物体中心光流
LILAC: Language-Conditioned Object-Centric Optical Flow for Open-Loop Trajectory Generation

📊 核心分析

LILAC：面向开环轨迹生成的语言条件化物体中心光流 LILAC: Language-Conditioned Object-Centric Optical Flow for Open-Loop Trajectory Generation

📊 核心分析

LILAC：面向开环轨迹生成的语言条件化物体中心光流
LILAC: Language-Conditioned Object-Centric Optical Flow for Open-Loop Trajectory Generation