- 现有**视觉-语言-动作(Vision-Language-Action, VLA)** 模型主要依赖2D视觉表示,限制了在3D环境中对**细粒度几何(fine-grained geometry)** 和**空间基础(spatial grounding)** 的推理能力
- 精确鲁棒的机器人操作需要深度理解三维几何结构,但现有方法缺乏有效的3D感知机制
- 研究背景:VLA模型通过大规模预训练视觉-语言骨干实现通用操作,但忽视了点云等3D信息的关键作用
- 提出**PointACT**,一种**双系统3D感知VLA策略(dual-system 3D-aware VLA policy)**,将**分层3D点云表示(hierarchical 3D point cloud representations)** 直接集成到动作解码过程
- 采用**多尺度点-动作交互机制(multi-scale point-action interaction mechanism)**,结合**高效瓶颈窗口自注意力(efficient bottleneck window self-attention)**,使演化动作令牌能同时密集关注局部几何细节和全局场景结构
- 动作解码器与预训练2D视觉-语言骨干协同工作,实现3D几何与2D语义的深度融合
- **首创性**:首次将分层3D点云直接集成到VLA的**动作解码(action decoding)** 环节,而非仅用作辅助视觉输入,实现几何与动作的紧密耦合
- **多尺度交互机制**:通过瓶颈窗口自注意力在动作令牌与点云之间进行高效密集交互,同时捕获局部细节和全局上下文,避免计算开销过大
- **双系统架构**:设计独立的3D点云专家模块,在冻结预训练2D骨干从头训练动作专家时仍能显著提升性能,证明3D表示的独立性价值
- 在**LIBERO** 和**RLBench** 两个标准基准上取得**一致改进**,在挑战性较高的**RLBench-10Tasks** 套件上比最先进的预训练VLA提高**10%的成功率**
- 大量**消融实验(ablation studies)** 验证:紧密耦合分层3D几何与预训练2D语义表示对于鲁棒且空间基础的机器人控制至关重要
- 展示了**预训练3D表示(pretrained 3D representations)** 在3D感知VLA策略中的巨大潜力,为未来融合3D信息的研究提供了新方向