- 解决**视觉-语言-动作(Vision-Language-Action, VLA)** 模型中**VLM语义空间** 与**具身控制策略(embodied control policy)** 之间的结构不匹配问题
- 现有VLA模型难以学习精确的**感知-动作映射(perception-action mapping)**,阻碍指令跟随操作
- 研究背景:预训练视觉-语言模型(VLM)具有丰富世界知识,但直接用于机器人操作时存在语义鸿沟
- 提出**AffordanceVLA** 统一框架,引入结构化**可达性预测(affordance forecasting)** 作为任务导向的中间表示,构建精准感知-动作映射
- 设计三个渐进式组件:**Which2Act** (通过视觉潜在预测实现对象级接地)、**Where2Act** (通过可达性图估计实现2D交互定位)、**How2Act** (通过3D几何推理引导操作策略)
- 采用**混合Transformer(Mixture-of-Transformer, MoT)** 架构,包含专用专家模块,配合三阶段训练策略和渐进式数据课程
- 开发**自动化数据增强流水线(auto data augmentation pipeline)**,解决机器人数据集中密集可达性标签稀缺问题
- **首创性**:首次将**结构化可达性预测(structured affordance forecasting)** 作为桥接视觉、语言与动作的中间表示,自然融合空间接地、语义条件和动作耦合
- **渐进式建模**:通过Which2Act→Where2Act→How2Act三阶段逐步建模操作先验,从对象定位到交互点再到3D几何,层次清晰
- **MoT架构**:混合Transformer结合专用专家,适应不同层次的感知-动作任务,提升模型表达能力
- **自动化数据增强**:针对机器人数据集缺乏密集可达性标签的痛点,提出鲁棒的自动生成方法,降低标注成本
- 为**VLA模型** 提供一种统一框架,有效解决语义空间与动作策略的结构不匹配,建立更精确的感知-动作映射
- 在仿真和真实世界的多种操作场景下取得强性能,验证了**可达性感知理解(affordance-aware understanding)** 对动作生成的提升效果
- 提出的自动化数据增强流水线有助于缓解机器人领域标签稀缺问题,促进社区研究
- 开源模型和代码(推测)推动**具身智能(embodied intelligence)** 领域的发展