研究动机:
• 视觉-语言-动作模型(Vision-Language-Action Models, VLAs)在具身人工智能(embodied AI)中潜力巨大,但其在资源受限的机器人上部署面临挑战,因为需要高内存和计算资源。
• 训练后量化(Post-Training Quantization, PTQ)是一种高效解决方案,但直接应用于VLAs时,在顺序控制(sequential control)中会导致严重的性能下降。
• 核心问题是识别到时序误差累积(temporal error accumulation),即视觉-语言到动作接口处的量化扰动(quantization perturbations)被逐步放大,导致执行轨迹中的运动学漂移(kinematic drift)。
核心方法:
• 提出漂移感知训练后量化(Drift-Aware Post-Training Quantization, DA-PTQ),将量化表述为顺序决策过程(sequential decision processes)上的漂移感知优化问题。
• 该方法包含两个核心组件:
1. 跨空间表示补偿(Cross-Space Representation Compensation):减轻多模态表示(multimodal representations)与动作空间(action space)之间的结构化失真(structured distortions),以提高动作一致性(action consistency)。
2. 运动驱动的混合精度分配(Motion-Driven Mixed-Precision Allocation):通过最小化轨迹级运动误差(trajectory-level motion errors)来分配比特宽度(bit-widths)。
核心创新点:
• **问题视角创新**:首次明确指出并系统分析了将PTQ应用于VLAs时,性能下降的根本原因是时序误差累积导致的运动学漂移,而非传统的静态精度损失。
• **方法框架创新**:提出了首个针对顺序决策过程的漂移感知量化优化框架(DA-PTQ),将量化问题从单步精度优化提升到轨迹级性能优化。
• **技术组件创新**:
- 设计了跨空间表示补偿机制,专门针对VLAs中多模态到动作的接口失真进行补偿,这是传统PTQ未考虑的。
- 提出了以运动误差为驱动的混合精度分配策略,将比特分配与最终的运动控制质量直接挂钩,不同于传统的基于权重敏感度的分配方法。
总体贡献:
• **理论贡献**:为VLAs的量化研究引入了时序误差累积和运动学漂移的新分析视角,建立了量化扰动与长期控制性能下降之间的理论联系。
• **方法贡献**:提出了DA-PTQ这一系统性的解决方案,通过两个创新组件有效缓解了量化漂移问题,在低比特(low-bit)设置下实现了与全精度模型相当的性能。
• **实践贡献**:显著提升了VLAs在资源受限机器人平台上的部署可行性,为高效的具身AI系统部署提供了关键技术支撑。