二维还是三维：谁主导了视觉语言模型中的显著性？——基于模态显著性感知的三阶段令牌剪枝框架

📝 论文摘要

视觉-语言-行动（VLA）模型已成为具身智能的主流范式。近期，VLA模型已将其输入模态从纯二维扩展至二维与三维融合的范式，形成了多视觉模态VLA（MVLA）模型。尽管空间感知能力得到提升，但由于模态扩展导致输入标记数量增加，MVLA模型面临着更大的加速需求。标记剪枝是针对MVLA模型的有效优化方法。然而，现有的标记剪枝方案专为纯二维VLA模型设计，忽略了二维与三维模态的显著性差异。本文遵循多模态数据在MVLA模型中的应用流程，通过三阶段分析捕捉二维与三维模态显著性的差异与动态变化。基于此，我们提出了一种面向MVLA模型的三阶段标记剪枝框架，以实现最优的二维与三维标记选择及高效剪枝。实验表明，该框架在精度损失最小化的前提下，推理速度最高可提升2.55倍，而额外计算开销仅占5.8%。相关代码即将开源。

🎯 研究动机

论文旨在解决多视觉模态视觉-语言-动作(Multi-visual-modal Vision-Language-Action, MVLA)模型因模态扩展（从仅2D输入到2D+3D输入）导致输入令牌(token)数量激增，从而面临巨大加速需求的问题。现有令牌剪枝(token pruning)方案专为仅2D的VLA模型设计，忽略了2D与3D模态之间的显著性(salience)差异，无法直接有效应用于MVLA模型。

🔧 核心方法

论文提出了一种面向MVLA模型的三阶段令牌剪枝框架。 - 首先，遵循MVLA模型中多模态数据的应用流程，开发了一个三阶段分析，以捕捉2D/3D模态显著性差异及其动态变化。 - 基于此分析，设计了一个对应的三阶段剪枝框架，旨在实现最优的2D/3D令牌选择与高效剪枝。 - 该方法在推理时仅产生5.8%的开销(overhead)。

💡 核心创新

论文的核心创新在于首次针对MVLA模型提出了具有模态显著性感知能力的令牌剪枝方案。 - **关键创新点**：通过三阶段分析，系统性地建模和利用了2D与3D模态在MVLA模型处理流程中的显著性差异与动态特性，从而指导剪枝决策。 - **与现有工作的独特之处**：现有令牌剪枝方法为通用或仅针对2D模态设计，而本工作专门针对2D+3D多模态场景，通过分析模态间关系来优化剪枝，实现了更精细、更高效的模型加速。

🏆 总体贡献

论文的整体贡献包括： - 提出了首个针对MVLA模型的、感知模态显著性的三阶段令牌剪枝框架。 - 通过实验验证，该框架能以极小的精度损失（最小精度损失）实现高达2.55倍的推理加速(inference speedup)，且开销极低。 - 为多模态大模型，特别是结合2D与3D视觉信息的具身智能(embodied intelligence)模型的高效部署，提供了一种有效的优化方法。

二维还是三维：谁主导了视觉语言模型中的显著性？——基于模态显著性感知的三阶段令牌剪枝框架
2D or 3D: Who Governs Salience in VLA Models? -- Tri-Stage Token Pruning Framework with Modality Salience Awareness

📊 核心分析

二维还是三维：谁主导了视觉语言模型中的显著性？——基于模态显著性感知的三阶段令牌剪枝框架 2D or 3D: Who Governs Salience in VLA Models? -- Tri-Stage Token Pruning Framework with Modality Salience Awareness

📊 核心分析

二维还是三维：谁主导了视觉语言模型中的显著性？——基于模态显著性感知的三阶段令牌剪枝框架
2D or 3D: Who Governs Salience in VLA Models? -- Tri-Stage Token Pruning Framework with Modality Salience Awareness