基于轨迹条件VLA规划的长时域操控

📝 论文摘要

对于视觉-语言-动作（VLA）策略而言，长时域操作仍具挑战性：真实任务具有多步骤、依赖进度且易因执行误差累积而失效的特点。我们提出LoHo-Manip模块化框架，通过专用任务管理视觉语言模型（VLM），将短时域VLA执行能力扩展至长时域指令跟踪。该管理器与执行器解耦，采用递推时域方式调用：基于当前观测，预测包含进度感知的剩余计划，该计划结合了（i）带有显式已完成/未完成划分的子任务序列作为轻量级语言记忆，以及（ii）视觉轨迹——一种紧凑的二维关键点轨迹提示，用于指定下一步移动方向和接近目标。执行器VLA通过渲染轨迹进行条件化调整，从而将长时域决策转化为沿轨迹的重复局部控制。关键在于，每步预测剩余计划形成隐式闭环：失败步骤会持续出现在后续输出中，轨迹随之更新，无需人工设计的恢复逻辑或脆弱的视觉历史缓冲区即可实现自动延续与重规划。在具身规划、长时域推理、轨迹预测以及仿真与真实Franka机器人端到端操作中的大量实验表明，该方法在长时域成功率、鲁棒性及分布外泛化方面均取得显著提升。项目页面：https://www.liuisabella.com/LoHoManip

🎯 研究动机

长期操控(long-horizon manipulation)对视觉-语言-动作(VLA)策略仍然具有挑战性：真实任务是多步骤的、依赖进度的，并且容易因复合执行错误而失败。现有方法缺乏有效的长期规划与错误恢复机制。

🔧 核心方法

提出LoHo-Manip模块化框架，包含一个任务管理视觉语言模型(VLM)和一个执行器VLA。管理器以滚动时域(receding-horizon)方式运行：根据当前观测预测进度感知的剩余计划，包括(1)子任务序列(含明确的已完成+剩余分割，作为轻量语言记忆)和(2)视觉轨迹(visual trace)——一个紧凑的2D关键点轨迹提示，指示下一步去向和接近目标。执行器VLA根据渲染的轨迹进行条件化，将长期决策转化为重复的局部轨迹跟踪控制。

💡 核心创新

核心创新在于：(1) 将管理器与执行器解耦，通过滚动时域预测剩余计划实现隐式闭环——失败步骤会持续出现在后续输出中，轨迹自动更新，无需手工设计的恢复逻辑或脆弱的视觉历史缓冲区；(2) 引入视觉轨迹(visual trace)作为紧凑的2D关键点提示，将长期操控转化为局部轨迹跟踪，简化了长期决策。

🏆 总体贡献

总体贡献：(1) 提出了一种可扩展的长期操控框架LoHo-Manip，有效将短时域VLA执行扩展到长时域指令跟随；(2) 通过隐式闭环机制实现了自动继续和重新规划，显著提升了长期任务成功率、鲁棒性和分布外泛化能力；(3) 在仿真和真实Franka机器人上进行了广泛的实验验证，涵盖具身规划、长期推理、轨迹预测和端到端操控任务。

基于轨迹条件VLA规划的长时域操控
Long-Horizon Manipulation via Trace-Conditioned VLA Planning

📊 核心分析

基于轨迹条件VLA规划的长时域操控 Long-Horizon Manipulation via Trace-Conditioned VLA Planning

📊 核心分析

基于轨迹条件VLA规划的长时域操控
Long-Horizon Manipulation via Trace-Conditioned VLA Planning