← 返回论文列表

可供性VLA:一种通过可供性感知理解赋能动作生成的视觉-语言-动作模型
AffordanceVLA: A Vision-Language-Action Model Empowering Action Generation through Affordance-Aware Understanding

作者: Qize Yu, Jiadi You, Yuran Wang 等13人
arXiv: 2606.06155v1
分类: cs.RO, cs.CV, cs.MM
📝 论文摘要
视觉-语言-动作(VLA)模型利用预训练视觉-语言模型(VLM)丰富的世界知识,实现指令跟随的机器人操作。然而,VLM语义空间与具身控制策略之间的结构性错位常常阻碍精确感知-动作映射的学习。为解决这一挑战,我们提出**AffordanceVLA**,一个统一框架,通过引入结构化的可供性预测作为面向任务的中间表示,建立更精确、鲁棒的感知-动作映射。具体而言,我们通过三个互补组件逐步建模操作先验:1)**Which2Act**:通过视觉潜在预测实现以物体为中心的地面真值定位,抑制干扰;2)**Where2Act**:通过可供性地图估计实现二维交互定位;3)**How2Act**:通过三维几何推理引导操作策略。这些可供性线索提供了空间接地、语义条件化和动作耦合的中间表示,从而自然桥接视觉、语言和动作。我们将这些模块集成到具有专用专家的混合Transformer(MoT)架构中,并采用三阶段训练策略和渐进式数据课程进行模型训练。为解决机器人数据集中密集可供性标签稀缺的问题,我们还开发了鲁棒的自动数据增强流水线。在仿真和真实世界中的大量实验表明,AffordanceVLA在多样化操作场景中实现了优异性能。

📊 核心分析

🎯 研究动机
- 解决**视觉-语言-动作(Vision-Language-Action, VLA)** 模型中**VLM语义空间** 与**具身控制策略(embodied control policy)** 之间的结构不匹配问题 - 现有VLA模型难以学习精确的**感知-动作映射(perception-action mapping)**,阻碍指令跟随操作 - 研究背景:预训练视觉-语言模型(VLM)具有丰富世界知识,但直接用于机器人操作时存在语义鸿沟
🔧 核心方法
- 提出**AffordanceVLA** 统一框架,引入结构化**可达性预测(affordance forecasting)** 作为任务导向的中间表示,构建精准感知-动作映射 - 设计三个渐进式组件:**Which2Act** (通过视觉潜在预测实现对象级接地)、**Where2Act** (通过可达性图估计实现2D交互定位)、**How2Act** (通过3D几何推理引导操作策略) - 采用**混合Transformer(Mixture-of-Transformer, MoT)** 架构,包含专用专家模块,配合三阶段训练策略和渐进式数据课程 - 开发**自动化数据增强流水线(auto data augmentation pipeline)**,解决机器人数据集中密集可达性标签稀缺问题
💡 核心创新
- **首创性**:首次将**结构化可达性预测(structured affordance forecasting)** 作为桥接视觉、语言与动作的中间表示,自然融合空间接地、语义条件和动作耦合 - **渐进式建模**:通过Which2Act→Where2Act→How2Act三阶段逐步建模操作先验,从对象定位到交互点再到3D几何,层次清晰 - **MoT架构**:混合Transformer结合专用专家,适应不同层次的感知-动作任务,提升模型表达能力 - **自动化数据增强**:针对机器人数据集缺乏密集可达性标签的痛点,提出鲁棒的自动生成方法,降低标注成本
🏆 总体贡献
- 为**VLA模型** 提供一种统一框架,有效解决语义空间与动作策略的结构不匹配,建立更精确的感知-动作映射 - 在仿真和真实世界的多种操作场景下取得强性能,验证了**可达性感知理解(affordance-aware understanding)** 对动作生成的提升效果 - 提出的自动化数据增强流水线有助于缓解机器人领域标签稀缺问题,促进社区研究 - 开源模型和代码(推测)推动**具身智能(embodied intelligence)** 领域的发展