← 返回论文列表

关注要点:面向可泛化视觉-语言-动作模型的可微分网格采样剪枝
See What Matters: Differentiable Grid Sample Pruning for Generalizable Vision-Language-Action Model

作者: Yixu Feng, Zinan Zhao, Yanxiang Ma 等7人
arXiv: 2605.11817v1
分类: cs.RO, cs.CV
📝 论文摘要
视觉-语言-动作(VLA)模型在机器人操作领域展现出显著潜力,但其高昂的计算成本阻碍了实时部署。现有令牌剪枝方法面临根本性权衡:使用剪枝进行激进压缩必然丢弃接触点等关键几何细节,导致性能严重下降。这种妥协限制了可实现的压缩率,从而制约了潜在的速度提升。我们认为,打破这种权衡需要将压缩重新构想为视觉编码器中几何感知的连续令牌重采样。为此,我们提出可微网格采样器(GridS),这是一种即插即用模块,可在VLA中执行任务感知的视觉令牌连续重采样。通过自适应预测最小显著坐标集并利用可微插值提取特征,GridS在实现大幅压缩(保留少于10%的原始视觉令牌)的同时,保留了必要的空间信息。在LIBERO基准测试和真实机器人平台上的实验表明,通过验证迄今为止报告的最低可行视觉令牌数量,GridS在保持成功率不变的情况下,将FLOPs降低了76%。代码开源于 https://github.com/Fediory/Grid-Sampler。

📊 核心分析

🎯 研究动机
- 解决**视觉-语言-动作(VLA)** 模型计算成本高、难以实时部署的问题 - 现有token剪枝方法面临根本性权衡:激进压缩会丢弃关键几何细节(如接触点),导致性能严重下降,限制了压缩率与加速潜力 - 研究背景:VLA模型在机器人操作中表现优异,但高昂计算开销阻碍实时应用
🔧 核心方法
- 提出**可微网格采样器(Differentiable Grid Sampler, GridS)**,一种即插即用模块,在VLA视觉编码器中进行任务感知的连续token重采样 - 自适应预测一组最小显著坐标,通过**可微插值(differentiable interpolation)** 提取特征,保留空间信息同时实现剧烈压缩 - 仅使用少于10%的原始视觉token,且无需改变整体模型架构
💡 核心创新
- **重新定义压缩范式**:将token压缩视为**几何感知的连续重采样(geometry-aware continuous resampling)**,而非离散剪枝,避免丢弃关键几何细节 - **突破性能-压缩权衡**:首次实现低于10%视觉token的极端压缩率,同时确保成功率无下降(在LIBERO和真实机器人上验证) - **可微性与任务感知**:通过可微分插值实现端到端训练,采样坐标与任务目标对齐,保留接触点等重要空间信息
🏆 总体贡献
- 提出**GridS** 模块,为VLA模型提供一种高效、可插拔的视觉token压缩方案,显著降低计算开销(FLOPs减少76%) - 在LIBERO基准和真实机器人平台上达到当前报告的最少视觉token数,且成功率不退化 - 开源代码(https://github.com/Fediory/Grid-Sampler),促进社区复现与后续研究