DA-PTQ：面向高效视觉-语言-动作模型的漂移感知训练后量化

📝 论文摘要

视觉-语言-动作模型在具身智能领域展现出巨大潜力，但其高昂的内存与计算需求使其在资源受限机器人上的部署面临挑战。后训练量化虽能提供高效解决方案，但直接应用于视觉-语言-动作模型时，常因时序控制过程中的误差累积导致性能严重下降。研究发现，视觉-语言到动作接口处的量化扰动会随时间逐步放大，引发执行轨迹的运动学漂移。为此，我们提出漂移感知后训练量化方法，将量化问题构建为时序决策过程中的漂移感知优化问题。该方法包含两个核心组件：(1)跨空间表征补偿机制，通过缓解多模态表征与动作空间之间的结构化失真来提升动作一致性；(2)运动驱动的混合精度分配策略，通过最小化轨迹级运动误差来分配比特位宽。大量实验表明，该方法能显著降低运动学漂移，在低比特设置下达到与全精度模型相当的性能，为视觉-语言-动作模型在资源受限机器人平台的实际部署提供了可行方案。

🎯 研究动机

研究动机： • 视觉-语言-动作模型(Vision-Language-Action Models, VLAs)在具身人工智能(embodied AI)中潜力巨大，但其在资源受限的机器人上部署面临挑战，因为需要高内存和计算资源。 • 训练后量化(Post-Training Quantization, PTQ)是一种高效解决方案，但直接应用于VLAs时，在顺序控制(sequential control)中会导致严重的性能下降。 • 核心问题是识别到时序误差累积(temporal error accumulation)，即视觉-语言到动作接口处的量化扰动(quantization perturbations)被逐步放大，导致执行轨迹中的运动学漂移(kinematic drift)。

🔧 核心方法

核心方法： • 提出漂移感知训练后量化(Drift-Aware Post-Training Quantization, DA-PTQ)，将量化表述为顺序决策过程(sequential decision processes)上的漂移感知优化问题。 • 该方法包含两个核心组件： 1. 跨空间表示补偿(Cross-Space Representation Compensation)：减轻多模态表示(multimodal representations)与动作空间(action space)之间的结构化失真(structured distortions)，以提高动作一致性(action consistency)。 2. 运动驱动的混合精度分配(Motion-Driven Mixed-Precision Allocation)：通过最小化轨迹级运动误差(trajectory-level motion errors)来分配比特宽度(bit-widths)。

💡 核心创新

核心创新点： • **问题视角创新**：首次明确指出并系统分析了将PTQ应用于VLAs时，性能下降的根本原因是时序误差累积导致的运动学漂移，而非传统的静态精度损失。 • **方法框架创新**：提出了首个针对顺序决策过程的漂移感知量化优化框架(DA-PTQ)，将量化问题从单步精度优化提升到轨迹级性能优化。 • **技术组件创新**： - 设计了跨空间表示补偿机制，专门针对VLAs中多模态到动作的接口失真进行补偿，这是传统PTQ未考虑的。 - 提出了以运动误差为驱动的混合精度分配策略，将比特分配与最终的运动控制质量直接挂钩，不同于传统的基于权重敏感度的分配方法。

🏆 总体贡献

总体贡献： • **理论贡献**：为VLAs的量化研究引入了时序误差累积和运动学漂移的新分析视角，建立了量化扰动与长期控制性能下降之间的理论联系。 • **方法贡献**：提出了DA-PTQ这一系统性的解决方案，通过两个创新组件有效缓解了量化漂移问题，在低比特(low-bit)设置下实现了与全精度模型相当的性能。 • **实践贡献**：显著提升了VLAs在资源受限机器人平台上的部署可行性，为高效的具身AI系统部署提供了关键技术支撑。

DA-PTQ：面向高效视觉-语言-动作模型的漂移感知训练后量化
DA-PTQ: Drift-Aware Post-Training Quantization for Efficient Vision-Language-Action Models

📊 核心分析

DA-PTQ：面向高效视觉-语言-动作模型的漂移感知训练后量化 DA-PTQ: Drift-Aware Post-Training Quantization for Efficient Vision-Language-Action Models

📊 核心分析

DA-PTQ：面向高效视觉-语言-动作模型的漂移感知训练后量化
DA-PTQ: Drift-Aware Post-Training Quantization for Efficient Vision-Language-Action Models