迷失在雾中：传感器扰动暴露驾驶VLA的推理脆弱性

📝 论文摘要

可解释的自动驾驶规划器不仅依赖于生成解释，还依赖于这些解释在真实世界传感器退化条件下保持可靠性。本文针对自动驾驶中视觉-语言-动作（VLA）模型的鲁棒性进行了受控扰动研究，在八种传感器扰动（四种强度的高斯噪声、两种极端光照条件和两种雾霾程度）下，评估了Alpamayo R1（100亿参数）在1996个场景中的表现（约18,000次推理试验）。我们发现推理一致性是轨迹可靠性的高保真指标：当因果链（CoC）解释在扰动后发生变化时，轨迹偏差激增5.3倍（21.8米对比4.1米），不同攻击类型间的相关系数r=0.99，单样本点二列相关系数r_pb=0.53（Cohen's d=1.12）。受控消融实验提供了证据：在匹配的推理设置下，启用因果链生成与轨迹精度提升相关（各条件下平均提升11.8%；p < 0.0001）。在测试的噪声范围（σ∈{10, 30, 50, 70}）内，退化近似线性（R²=0.957），而标准输入预处理防御措施仅提供边际缓解。综合这些结果，因果链一致性可被确立为规划安全性的定量代理指标，并推动了基于推理的运行时监控方法，以实现更安全的VLA系统部署。

🎯 研究动机

- 现有**可解释自动驾驶规划器(interpretable autonomous driving planners)** 依赖于生成解释，但在现实传感器退化（如噪声、光照、雾）下解释的可靠性尚未被充分验证 - **视觉-语言-动作模型(VLA)** 在自动驾驶中广泛应用，但其在传感器扰动下的鲁棒性缺乏系统性研究 - 需要量化**推理一致性(reasoning consistency)** 与**轨迹可靠性(trajectory reliability)** 之间的关系，以便设计更安全的监控机制

🔧 核心方法

- 对**Alpamayo R1** （10B参数）VLA模型进行受控扰动研究，覆盖1,996个场景和8种传感器扰动（高斯噪声4种强度、2种光照极端、2种雾浓度），共约18,000次推理试验 - 引入**因果链(Chain-of-Causation, CoC)** 解释一致性作为度量，比较扰动前后解释的变化，并关联轨迹偏差 - 进行受控消融实验，对比启用与禁用CoC生成时的轨迹准确率，并使用**二列相关系数(point-biserial correlation)** 和**Cohen's d** 量化关联强度 - 分析退化模式：在不同噪声强度（σ ∈ {10,30,50,70}）下拟合线性模型，评估标准输入预处理防御的效果

💡 核心创新

- **首次系统量化**：在传感器扰动下，**CoC解释一致性** 被证明是**轨迹可靠性** 的高保真指标（相关性r=0.99），当解释改变时轨迹偏差飙升5.3倍 - **发现推理与规划的强关联**：每个样本的CoC变化与轨迹偏差显著相关（$r_{pb}=0.53$，Cohen's $d=1.12$），表明推理变化可直接反映规划风险 - **揭示退化的线性特征**：噪声强度与轨迹退化近似线性（$R^2=0.957$），而传统输入预处理防御效果有限，为后续防御设计提供依据 - **提出基于推理的运行时监控**：利用CoC一致性作为规划安全的定量代理，替代传统仅依赖于输出质量的监控方法

🏆 总体贡献

- 为**VLA自动驾驶模型** 的鲁棒性评估提供了系统化扰动协议和基准（1,996场景、8种扰动） - 建立了**CoC一致性** 作为规划安全量化代理的实证基础，推动更可靠的**基于推理的运行时监控(reasoning-based runtime monitoring)** - 揭示了传感器退化下VLA推理的脆弱性，并证明启用因果链生成可显著提升轨迹准确率（平均11.8%，$p<0.0001$），为模型设计提供指导 - 提供了开源数据和评估方法，促进社区对**可解释规划器鲁棒性(xAI robustness in planning)** 的进一步研究

迷失在雾中：传感器扰动暴露驾驶VLA的推理脆弱性
Lost in Fog: Sensor Perturbations Expose Reasoning Fragility in Driving VLAs

📊 核心分析

迷失在雾中：传感器扰动暴露驾驶VLA的推理脆弱性 Lost in Fog: Sensor Perturbations Expose Reasoning Fragility in Driving VLAs

📊 核心分析

迷失在雾中：传感器扰动暴露驾驶VLA的推理脆弱性
Lost in Fog: Sensor Perturbations Expose Reasoning Fragility in Driving VLAs