PointACT: 带有多尺度点-动作交互的视觉-语言-动作模型

📝 论文摘要

视觉-语言-动作（VLA）模型通过利用大规模预训练的视觉-语言骨干网络，在通用机器人操作任务中展现出巨大潜力。然而，现有VLA模型大多依赖二维视觉表征，这限制了其对精细几何结构和空间语义的推理能力——而这些能力正是三维环境中实现精准鲁棒操作的关键。本文提出PointACT，一种双系统三维感知VLA策略，将分层三维点云表征直接集成到动作解码过程中。PointACT采用多尺度点-动作交互机制，结合高效的瓶颈窗口自注意力，使动态演化的动作标记既能密集关注局部几何细节，又能捕捉全局场景结构。我们在LIBERO和RLBench基准上评估PointACT，并将其与单系统及双系统VLA基线（包括引入点云输入的增强变体）进行系统比较。PointACT在两个基准上均取得持续提升，在具有挑战性的RLBench-10Tasks套件中，相比最先进的预训练VLA模型成功率提高10%，当冻结视觉-语言骨干网络而从头训练动作专家模块时，性能提升更为显著。大量消融实验表明，将分层三维几何结构与预训练二维语义表征紧密耦合，对于实现鲁棒且具备空间感知能力的机器人控制至关重要。我们的结果也凸显了预训练三维表征在三维感知VLA策略中的应用前景。

🎯 研究动机

- 现有**视觉-语言-动作(Vision-Language-Action, VLA)** 模型主要依赖2D视觉表示，限制了在3D环境中对**细粒度几何(fine-grained geometry)** 和**空间基础(spatial grounding)** 的推理能力 - 精确鲁棒的机器人操作需要深度理解三维几何结构，但现有方法缺乏有效的3D感知机制 - 研究背景：VLA模型通过大规模预训练视觉-语言骨干实现通用操作，但忽视了点云等3D信息的关键作用

🔧 核心方法

- 提出**PointACT**，一种**双系统3D感知VLA策略(dual-system 3D-aware VLA policy)**，将**分层3D点云表示(hierarchical 3D point cloud representations)** 直接集成到动作解码过程 - 采用**多尺度点-动作交互机制(multi-scale point-action interaction mechanism)**，结合**高效瓶颈窗口自注意力(efficient bottleneck window self-attention)**，使演化动作令牌能同时密集关注局部几何细节和全局场景结构 - 动作解码器与预训练2D视觉-语言骨干协同工作，实现3D几何与2D语义的深度融合

💡 核心创新

- **首创性**：首次将分层3D点云直接集成到VLA的**动作解码(action decoding)** 环节，而非仅用作辅助视觉输入，实现几何与动作的紧密耦合 - **多尺度交互机制**：通过瓶颈窗口自注意力在动作令牌与点云之间进行高效密集交互，同时捕获局部细节和全局上下文，避免计算开销过大 - **双系统架构**：设计独立的3D点云专家模块，在冻结预训练2D骨干从头训练动作专家时仍能显著提升性能，证明3D表示的独立性价值

🏆 总体贡献

- 在**LIBERO** 和**RLBench** 两个标准基准上取得**一致改进**，在挑战性较高的**RLBench-10Tasks** 套件上比最先进的预训练VLA提高**10%的成功率** - 大量**消融实验(ablation studies)** 验证：紧密耦合分层3D几何与预训练2D语义表示对于鲁棒且空间基础的机器人控制至关重要 - 展示了**预训练3D表示(pretrained 3D representations)** 在3D感知VLA策略中的巨大潜力，为未来融合3D信息的研究提供了新方向

PointACT: 带有多尺度点-动作交互的视觉-语言-动作模型
PointACT: Vision-Language-Action Models with Multi-Scale Point-Action Interaction

📊 核心分析

PointACT: 带有多尺度点-动作交互的视觉-语言-动作模型 PointACT: Vision-Language-Action Models with Multi-Scale Point-Action Interaction

📊 核心分析

PointACT: 带有多尺度点-动作交互的视觉-语言-动作模型
PointACT: Vision-Language-Action Models with Multi-Scale Point-Action Interaction