DeMaVLA：用于可泛化可变形操作的视觉-语言-动作基础模型

DeMaVLA: A Vision-Language-Action Foundation Model for Generalizable Deformable Manipulation

作者: Taiyi Su, Jian Zhu, Tianjian Wang 等12人

arXiv: 2605.31286v1

分类: cs.RO, cs.AI

📝 论文摘要

真实世界的家务机器人需要具备视觉-语言-动作（VLA）基础模型，这些模型能够跨不同物体、任务条件和家庭环境获取可复用的操作技能。可变形物体折叠是一项代表性挑战，要求机器人处理从随机初始状态出发、涵盖不同类别、几何形状、材质和场景的衣物。然而，现有VLA系统通常为不同物体类别分别训练策略，而简单混合的多任务训练常面临任务干扰和性能下降问题。为突破类别特化的折叠策略，我们提出DeMaVLA——一个面向可泛化可变形操作的基础VLA模型。DeMaVLA采用带有动作专家的视觉语言模型（VLM）主干，并利用流匹配（flow matching）构建连续动作生成。为提升效率，动作专家通过每隔一层Transformer层进行剪枝构建，同时保持与VLM主干的逐层对齐，从而降低训练和推理成本。DeMaVLA首先在约5000小时的精选真实世界双臂演示数据上预训练，以获取通用操作先验知识；随后在混合折叠数据上进行后训练，该数据集通过人在回路的数据聚合（DAgger）流程，整合了自采集演示和来自多个折叠任务中真实机器人失败的纠正轨迹。实验表明，DeMaVLA在RoboTwin基准上取得了有竞争力的性能，并在我们的家庭折叠基准上展现出强大的真实世界结果。这些结果凸显了可扩展真实世界数据、高效动作生成以及纠正性学习对于可变形物体操作中通用VLA策略的价值。

📊 核心分析

🎯 研究动机

- 家庭机器人需要**视觉-语言-动作(Vision-Language-Action, VLA)** 基础模型，具备跨物体、任务与环境的可复用操作技能 - 可变形物体折叠是一个代表性挑战，现有**VLA系统** 通常为不同物体类别训练单独策略，而混合多任务训练面临任务干扰与性能下降 - 现有方法缺乏泛化能力，无法应对随机初始状态的衣物（不同类别、几何、材质、场景）

🔧 核心方法

- 提出**DeMaVLA** 框架，采用**视觉-语言模型(VLM)** 骨干结合动作专家，利用**流匹配(flow matching)** 生成连续动作 - 动作专家通过裁剪每隔一层Transformer层构建，同时保持与VLM骨干的层间对齐，降低训练与推理成本 - 先在大约**5000小时** 的真实世界双臂演示数据上预训练以获取通用操作先验，再在混合折叠数据上后训练 - 后训练采用**人机循环数据聚合(DAgger)** 管道，汇集自采演示和失败纠正轨迹

💡 核心创新

- **动作专家高效设计**：通过裁剪每隔一层Transformer层并保留层间对齐，显著降低计算开销 - **大规模真实世界预训练**：首次利用约5000小时双人演示数据为可变形操作获取通用先验 - **纠正学习(DAgger)**：将人机循环的失败纠正轨迹引入后训练，提升泛化鲁棒性 - **克服类别专用策略限制**：首次实现跨类别的可泛化可变形物体折叠VLA基础模型

🏆 总体贡献

- 为**可变形物体操作(Deformable Manipulation)** 领域提供了可泛化的**VLA基础模型** 范式 - 展示了大规模真实世界数据、高效动作生成和纠正学习对通用VLA策略的价值 - 在**RoboTwin** 和家庭折叠基准上达到有竞争力的性能，推动机器人操作泛化研究