← 返回论文列表

二维还是三维:谁主导了视觉语言模型中的显著性?——基于模态显著性感知的三阶段令牌剪枝框架
2D or 3D: Who Governs Salience in VLA Models? -- Tri-Stage Token Pruning Framework with Modality Salience Awareness

作者: Zihao Zheng, Sicheng Tian, Zhihao Mao 等11人
arXiv: 2604.09244v1
分类: cs.MM, cs.CV, cs.RO
📝 论文摘要
视觉-语言-行动(VLA)模型已成为具身智能的主流范式。近期,VLA模型已将其输入模态从纯二维扩展至二维与三维融合的范式,形成了多视觉模态VLA(MVLA)模型。尽管空间感知能力得到提升,但由于模态扩展导致输入标记数量增加,MVLA模型面临着更大的加速需求。标记剪枝是针对MVLA模型的有效优化方法。然而,现有的标记剪枝方案专为纯二维VLA模型设计,忽略了二维与三维模态的显著性差异。本文遵循多模态数据在MVLA模型中的应用流程,通过三阶段分析捕捉二维与三维模态显著性的差异与动态变化。基于此,我们提出了一种面向MVLA模型的三阶段标记剪枝框架,以实现最优的二维与三维标记选择及高效剪枝。实验表明,该框架在精度损失最小化的前提下,推理速度最高可提升2.55倍,而额外计算开销仅占5.8%。相关代码即将开源。

📊 核心分析

🎯 研究动机
论文旨在解决多视觉模态视觉-语言-动作(Multi-visual-modal Vision-Language-Action, MVLA)模型因模态扩展(从仅2D输入到2D+3D输入)导致输入令牌(token)数量激增,从而面临巨大加速需求的问题。现有令牌剪枝(token pruning)方案专为仅2D的VLA模型设计,忽略了2D与3D模态之间的显著性(salience)差异,无法直接有效应用于MVLA模型。
🔧 核心方法
论文提出了一种面向MVLA模型的三阶段令牌剪枝框架。 - 首先,遵循MVLA模型中多模态数据的应用流程,开发了一个三阶段分析,以捕捉2D/3D模态显著性差异及其动态变化。 - 基于此分析,设计了一个对应的三阶段剪枝框架,旨在实现最优的2D/3D令牌选择与高效剪枝。 - 该方法在推理时仅产生5.8%的开销(overhead)。
💡 核心创新
论文的核心创新在于首次针对MVLA模型提出了具有模态显著性感知能力的令牌剪枝方案。 - **关键创新点**:通过三阶段分析,系统性地建模和利用了2D与3D模态在MVLA模型处理流程中的显著性差异与动态特性,从而指导剪枝决策。 - **与现有工作的独特之处**:现有令牌剪枝方法为通用或仅针对2D模态设计,而本工作专门针对2D+3D多模态场景,通过分析模态间关系来优化剪枝,实现了更精细、更高效的模型加速。
🏆 总体贡献
论文的整体贡献包括: - 提出了首个针对MVLA模型的、感知模态显著性的三阶段令牌剪枝框架。 - 通过实验验证,该框架能以极小的精度损失(最小精度损失)实现高达2.55倍的推理加速(inference speedup),且开销极低。 - 为多模态大模型,特别是结合2D与3D视觉信息的具身智能(embodied intelligence)模型的高效部署,提供了一种有效的优化方法。