- 解决**视觉-语言-动作(VLA)** 模型计算成本高、难以实时部署的问题
- 现有token剪枝方法面临根本性权衡:激进压缩会丢弃关键几何细节(如接触点),导致性能严重下降,限制了压缩率与加速潜力
- 研究背景:VLA模型在机器人操作中表现优异,但高昂计算开销阻碍实时应用
- 提出**可微网格采样器(Differentiable Grid Sampler, GridS)**,一种即插即用模块,在VLA视觉编码器中进行任务感知的连续token重采样
- 自适应预测一组最小显著坐标,通过**可微插值(differentiable interpolation)** 提取特征,保留空间信息同时实现剧烈压缩
- 仅使用少于10%的原始视觉token,且无需改变整体模型架构
- **重新定义压缩范式**:将token压缩视为**几何感知的连续重采样(geometry-aware continuous resampling)**,而非离散剪枝,避免丢弃关键几何细节
- **突破性能-压缩权衡**:首次实现低于10%视觉token的极端压缩率,同时确保成功率无下降(在LIBERO和真实机器人上验证)
- **可微性与任务感知**:通过可微分插值实现端到端训练,采样坐标与任务目标对齐,保留接触点等重要空间信息
- 提出**GridS** 模块,为VLA模型提供一种高效、可插拔的视觉token压缩方案,显著降低计算开销(FLOPs减少76%)
- 在LIBERO基准和真实机器人平台上达到当前报告的最少视觉token数,且成功率不退化
- 开源代码(https://github.com/Fediory/Grid-Sampler),促进社区复现与后续研究