← 返回论文列表

PointACT: 带有多尺度点-动作交互的视觉-语言-动作模型
PointACT: Vision-Language-Action Models with Multi-Scale Point-Action Interaction

作者: Shizhe Chen, Paul Pacaud, Cordelia Schmid
arXiv: 2605.21414v1
分类: cs.RO, cs.CV
📝 论文摘要
视觉-语言-动作(VLA)模型通过利用大规模预训练的视觉-语言骨干网络,在通用机器人操作任务中展现出巨大潜力。然而,现有VLA模型大多依赖二维视觉表征,这限制了其对精细几何结构和空间语义的推理能力——而这些能力正是三维环境中实现精准鲁棒操作的关键。本文提出PointACT,一种双系统三维感知VLA策略,将分层三维点云表征直接集成到动作解码过程中。PointACT采用多尺度点-动作交互机制,结合高效的瓶颈窗口自注意力,使动态演化的动作标记既能密集关注局部几何细节,又能捕捉全局场景结构。我们在LIBERO和RLBench基准上评估PointACT,并将其与单系统及双系统VLA基线(包括引入点云输入的增强变体)进行系统比较。PointACT在两个基准上均取得持续提升,在具有挑战性的RLBench-10Tasks套件中,相比最先进的预训练VLA模型成功率提高10%,当冻结视觉-语言骨干网络而从头训练动作专家模块时,性能提升更为显著。大量消融实验表明,将分层三维几何结构与预训练二维语义表征紧密耦合,对于实现鲁棒且具备空间感知能力的机器人控制至关重要。我们的结果也凸显了预训练三维表征在三维感知VLA策略中的应用前景。

📊 核心分析

🎯 研究动机
- 现有**视觉-语言-动作(Vision-Language-Action, VLA)** 模型主要依赖2D视觉表示,限制了在3D环境中对**细粒度几何(fine-grained geometry)** 和**空间基础(spatial grounding)** 的推理能力 - 精确鲁棒的机器人操作需要深度理解三维几何结构,但现有方法缺乏有效的3D感知机制 - 研究背景:VLA模型通过大规模预训练视觉-语言骨干实现通用操作,但忽视了点云等3D信息的关键作用
🔧 核心方法
- 提出**PointACT**,一种**双系统3D感知VLA策略(dual-system 3D-aware VLA policy)**,将**分层3D点云表示(hierarchical 3D point cloud representations)** 直接集成到动作解码过程 - 采用**多尺度点-动作交互机制(multi-scale point-action interaction mechanism)**,结合**高效瓶颈窗口自注意力(efficient bottleneck window self-attention)**,使演化动作令牌能同时密集关注局部几何细节和全局场景结构 - 动作解码器与预训练2D视觉-语言骨干协同工作,实现3D几何与2D语义的深度融合
💡 核心创新
- **首创性**:首次将分层3D点云直接集成到VLA的**动作解码(action decoding)** 环节,而非仅用作辅助视觉输入,实现几何与动作的紧密耦合 - **多尺度交互机制**:通过瓶颈窗口自注意力在动作令牌与点云之间进行高效密集交互,同时捕获局部细节和全局上下文,避免计算开销过大 - **双系统架构**:设计独立的3D点云专家模块,在冻结预训练2D骨干从头训练动作专家时仍能显著提升性能,证明3D表示的独立性价值
🏆 总体贡献
- 在**LIBERO** 和**RLBench** 两个标准基准上取得**一致改进**,在挑战性较高的**RLBench-10Tasks** 套件上比最先进的预训练VLA提高**10%的成功率** - 大量**消融实验(ablation studies)** 验证:紧密耦合分层3D几何与预训练2D语义表示对于鲁棒且空间基础的机器人控制至关重要 - 展示了**预训练3D表示(pretrained 3D representations)** 在3D感知VLA策略中的巨大潜力,为未来融合3D信息的研究提供了新方向