长期操控(long-horizon manipulation)对视觉-语言-动作(VLA)策略仍然具有挑战性:真实任务是多步骤的、依赖进度的,并且容易因复合执行错误而失败。现有方法缺乏有效的长期规划与错误恢复机制。
提出LoHo-Manip模块化框架,包含一个任务管理视觉语言模型(VLM)和一个执行器VLA。管理器以滚动时域(receding-horizon)方式运行:根据当前观测预测进度感知的剩余计划,包括(1)子任务序列(含明确的已完成+剩余分割,作为轻量语言记忆)和(2)视觉轨迹(visual trace)——一个紧凑的2D关键点轨迹提示,指示下一步去向和接近目标。执行器VLA根据渲染的轨迹进行条件化,将长期决策转化为重复的局部轨迹跟踪控制。
核心创新在于:(1) 将管理器与执行器解耦,通过滚动时域预测剩余计划实现隐式闭环——失败步骤会持续出现在后续输出中,轨迹自动更新,无需手工设计的恢复逻辑或脆弱的视觉历史缓冲区;(2) 引入视觉轨迹(visual trace)作为紧凑的2D关键点提示,将长期操控转化为局部轨迹跟踪,简化了长期决策。
总体贡献:(1) 提出了一种可扩展的长期操控框架LoHo-Manip,有效将短时域VLA执行扩展到长时域指令跟随;(2) 通过隐式闭环机制实现了自动继续和重新规划,显著提升了长期任务成功率、鲁棒性和分布外泛化能力;(3) 在仿真和真实Franka机器人上进行了广泛的实验验证,涵盖具身规划、长期推理、轨迹预测和端到端操控任务。