该论文旨在解决机器人操作领域的一个关键权衡问题:端到端视觉-语言-动作(Vision-Language-Action, VLA)模型在特定控制数据上微调时,往往会损害其基础视觉-语言模型(Vision-Language Models, VLMs)所具备的深度推理能力。研究背景是,现有方法难以同时保持强大的语义理解与鲁棒的运动控制。
论文提出了一个名为HiVLA的视觉中心化分层框架,其核心方法包括:
- **高层语义规划**:使用一个VLM规划器进行任务分解(task decomposition)和视觉定位(visual grounding),生成结构化计划,包含子任务指令和精确的目标边界框(bounding box)。
- **底层运动控制**:引入一个基于流匹配(flow-matching)的扩散变换器(Diffusion Transformer, DiT)动作专家,并配备一种新颖的级联交叉注意力(cascaded cross-attention)机制。该机制依次融合全局上下文、高分辨率以对象为中心(object-centric)的图像裁剪和技能语义,使DiT能够专注于鲁棒执行。
论文的核心创新点在于:
- **解耦的层次化架构**:明确地将高层语义规划与底层运动控制解耦,从根本上解决了端到端VLA模型在微调时损害基础VLM推理能力的根本性权衡问题。
- **级联交叉注意力机制**:在底层DiT动作专家中设计了一种新颖的注意力融合策略,能够顺序且有效地整合多模态信息(全局场景、高分辨率对象图像、技能语义),从而专注于生成精确的物理动作。
- **保留零样本推理能力**:该架构允许保留高层VLM规划器的零样本(zero-shot)推理能力,同时底层控制模块可以独立改进和优化,实现了模块化的优势。
论文对该领域的总体贡献是:
- 提出了HiVLA框架,为机器人操作提供了一种新的、更有效的范式,它平衡并超越了纯端到端方法在语义推理和运动控制方面的局限性。
- 通过大量的仿真和真实世界实验验证,HiVLA在性能上显著优于最先进的端到端基线方法,特别是在长视野技能组合(long-horizon skill composition)和杂乱场景中小物体的精细操作(fine-grained manipulation)方面表现出色。
- 其模块化设计为未来分别改进规划与控制组件提供了清晰的路径,推动了具身智能(embodied AI)向更可靠、更通用的方向发展。