论文旨在解决多视觉模态视觉-语言-动作(Multi-visual-modal Vision-Language-Action, MVLA)模型因模态扩展(从仅2D输入到2D+3D输入)导致输入令牌(token)数量激增,从而面临巨大加速需求的问题。现有令牌剪枝(token pruning)方案专为仅2D的VLA模型设计,忽略了2D与3D模态之间的显著性(salience)差异,无法直接有效应用于MVLA模型。
论文提出了一种面向MVLA模型的三阶段令牌剪枝框架。
- 首先,遵循MVLA模型中多模态数据的应用流程,开发了一个三阶段分析,以捕捉2D/3D模态显著性差异及其动态变化。
- 基于此分析,设计了一个对应的三阶段剪枝框架,旨在实现最优的2D/3D令牌选择与高效剪枝。
- 该方法在推理时仅产生5.8%的开销(overhead)。
论文的核心创新在于首次针对MVLA模型提出了具有模态显著性感知能力的令牌剪枝方案。
- **关键创新点**:通过三阶段分析,系统性地建模和利用了2D与3D模态在MVLA模型处理流程中的显著性差异与动态特性,从而指导剪枝决策。
- **与现有工作的独特之处**:现有令牌剪枝方法为通用或仅针对2D模态设计,而本工作专门针对2D+3D多模态场景,通过分析模态间关系来优化剪枝,实现了更精细、更高效的模型加速。
论文的整体贡献包括:
- 提出了首个针对MVLA模型的、感知模态显著性的三阶段令牌剪枝框架。
- 通过实验验证,该框架能以极小的精度损失(最小精度损失)实现高达2.55倍的推理加速(inference speedup),且开销极低。
- 为多模态大模型,特别是结合2D与3D视觉信息的具身智能(embodied intelligence)模型的高效部署,提供了一种有效的优化方法。