- 家庭机器人需要**视觉-语言-动作(Vision-Language-Action, VLA)** 基础模型,具备跨物体、任务与环境的可复用操作技能
- 可变形物体折叠是一个代表性挑战,现有**VLA系统** 通常为不同物体类别训练单独策略,而混合多任务训练面临任务干扰与性能下降
- 现有方法缺乏泛化能力,无法应对随机初始状态的衣物(不同类别、几何、材质、场景)
- 提出**DeMaVLA** 框架,采用**视觉-语言模型(VLM)** 骨干结合动作专家,利用**流匹配(flow matching)** 生成连续动作
- 动作专家通过裁剪每隔一层Transformer层构建,同时保持与VLM骨干的层间对齐,降低训练与推理成本
- 先在大约**5000小时** 的真实世界双臂演示数据上预训练以获取通用操作先验,再在混合折叠数据上后训练
- 后训练采用**人机循环数据聚合(DAgger)** 管道,汇集自采演示和失败纠正轨迹
- **动作专家高效设计**:通过裁剪每隔一层Transformer层并保留层间对齐,显著降低计算开销
- **大规模真实世界预训练**:首次利用约5000小时双人演示数据为可变形操作获取通用先验
- **纠正学习(DAgger)**:将人机循环的失败纠正轨迹引入后训练,提升泛化鲁棒性
- **克服类别专用策略限制**:首次实现跨类别的可泛化可变形物体折叠VLA基础模型
- 为**可变形物体操作(Deformable Manipulation)** 领域提供了可泛化的**VLA基础模型** 范式
- 展示了大规模真实世界数据、高效动作生成和纠正学习对通用VLA策略的价值
- 在**RoboTwin** 和家庭折叠基准上达到有竞争力的性能,推动机器人操作泛化研究