可供性VLA：一种通过可供性感知理解赋能动作生成的视觉-语言-动作模型

📝 论文摘要

视觉-语言-动作（VLA）模型利用预训练视觉-语言模型（VLM）丰富的世界知识，实现指令跟随的机器人操作。然而，VLM语义空间与具身控制策略之间的结构性错位常常阻碍精确感知-动作映射的学习。为解决这一挑战，我们提出**AffordanceVLA**，一个统一框架，通过引入结构化的可供性预测作为面向任务的中间表示，建立更精确、鲁棒的感知-动作映射。具体而言，我们通过三个互补组件逐步建模操作先验：1)**Which2Act**：通过视觉潜在预测实现以物体为中心的地面真值定位，抑制干扰；2)**Where2Act**：通过可供性地图估计实现二维交互定位；3)**How2Act**：通过三维几何推理引导操作策略。这些可供性线索提供了空间接地、语义条件化和动作耦合的中间表示，从而自然桥接视觉、语言和动作。我们将这些模块集成到具有专用专家的混合Transformer（MoT）架构中，并采用三阶段训练策略和渐进式数据课程进行模型训练。为解决机器人数据集中密集可供性标签稀缺的问题，我们还开发了鲁棒的自动数据增强流水线。在仿真和真实世界中的大量实验表明，AffordanceVLA在多样化操作场景中实现了优异性能。

🎯 研究动机

- 解决**视觉-语言-动作(Vision-Language-Action, VLA)** 模型中**VLM语义空间** 与**具身控制策略(embodied control policy)** 之间的结构不匹配问题 - 现有VLA模型难以学习精确的**感知-动作映射(perception-action mapping)**，阻碍指令跟随操作 - 研究背景：预训练视觉-语言模型(VLM)具有丰富世界知识，但直接用于机器人操作时存在语义鸿沟

🔧 核心方法

- 提出**AffordanceVLA** 统一框架，引入结构化**可达性预测(affordance forecasting)** 作为任务导向的中间表示，构建精准感知-动作映射 - 设计三个渐进式组件：**Which2Act** （通过视觉潜在预测实现对象级接地）、**Where2Act** （通过可达性图估计实现2D交互定位）、**How2Act** （通过3D几何推理引导操作策略） - 采用**混合Transformer(Mixture-of-Transformer, MoT)** 架构，包含专用专家模块，配合三阶段训练策略和渐进式数据课程 - 开发**自动化数据增强流水线(auto data augmentation pipeline)**，解决机器人数据集中密集可达性标签稀缺问题

💡 核心创新

- **首创性**：首次将**结构化可达性预测(structured affordance forecasting)** 作为桥接视觉、语言与动作的中间表示，自然融合空间接地、语义条件和动作耦合 - **渐进式建模**：通过Which2Act→Where2Act→How2Act三阶段逐步建模操作先验，从对象定位到交互点再到3D几何，层次清晰 - **MoT架构**：混合Transformer结合专用专家，适应不同层次的感知-动作任务，提升模型表达能力 - **自动化数据增强**：针对机器人数据集缺乏密集可达性标签的痛点，提出鲁棒的自动生成方法，降低标注成本

🏆 总体贡献

- 为**VLA模型** 提供一种统一框架，有效解决语义空间与动作策略的结构不匹配，建立更精确的感知-动作映射 - 在仿真和真实世界的多种操作场景下取得强性能，验证了**可达性感知理解(affordance-aware understanding)** 对动作生成的提升效果 - 提出的自动化数据增强流水线有助于缓解机器人领域标签稀缺问题，促进社区研究 - 开源模型和代码（推测）推动**具身智能(embodied intelligence)** 领域的发展

可供性VLA：一种通过可供性感知理解赋能动作生成的视觉-语言-动作模型
AffordanceVLA: A Vision-Language-Action Model Empowering Action Generation through Affordance-Aware Understanding

📊 核心分析

可供性VLA：一种通过可供性感知理解赋能动作生成的视觉-语言-动作模型 AffordanceVLA: A Vision-Language-Action Model Empowering Action Generation through Affordance-Aware Understanding

📊 核心分析

可供性VLA：一种通过可供性感知理解赋能动作生成的视觉-语言-动作模型
AffordanceVLA: A Vision-Language-Action Model Empowering Action Generation through Affordance-Aware Understanding