用于单应性矩阵形式验证的利普希茨优化

Lipschitz Optimization for Formal Verification of Homographies

作者: Jean-Guillaume Durand, Panagiotis Kouvaros, Maxime Gariel 等4人

arXiv: 2605.23203v1

分类: cs.CV, cs.AI, cs.LG, cs.RO

📝 论文摘要

在受监管行业中采用视觉神经网络需要形式化的鲁棒性保证，尤其是在医疗健康、自动驾驶和航空航天等安全关键领域。然而，当前方法局限于对$\ell_p$-范数和仿射变换的不完全统计验证或鲁棒性，这些仅覆盖了图像形成过程中极窄的扰动子集。特别是，尽管对相机运动的鲁棒性是部署众多视觉应用的关键，但其仍是一个悬而未决的问题。我们提出了一种针对拍摄相机3D运动扰动的形式化验证方法。首先，我们建立了从相机位姿到像素值的闭式映射。通过分析由此产生的单应矩阵的连续性特征，我们证明了近期关于Lipschitz优化和分段连续性的工作可被扩展，以推导出扰动像素值上的紧致线性界。我们的方法适用于以平面结构为主的场景，如增强现实中的地面、自动驾驶中的道路标线和交通标志，或机器人操作中的平面工作空间。这实现了投影几何变换的首个形式化验证，无需复杂仿真、替代网络或显式图像形成模型。我们验证了实现方案，并展示了相比先前工作高达89%的加速比和7%的更紧致边界。随后，我们在VNN-COMP基准上评估了该方法，揭示了其对投影扰动存在的系统性弱点。最后，我们针对一个安全关键的跑道分类器进行了真实世界案例研究，凸显了相机运动带来的实际漏洞，并解决了已学习模型认证中的关键挑战。数据和代码已公开于https://github.com/jeangud/homography-verification。

📊 核心分析

🎯 研究动机

- 解决视觉神经网络在**安全关键领域（如自动驾驶、医疗、航空航天）** 中缺乏对**相机运动扰动** 的形式化鲁棒性保证的问题 - 现有方法局限于统计验证或针对**ℓ_p范数** 和**仿射变换** 的鲁棒性，无法覆盖图像形成过程中更广泛的扰动 - 相机运动扰动是部署许多视觉应用的关键障碍，但仍是未解决的研究空白

🔧 核心方法

- 建立从**相机位姿(camera pose)** 到像素值的**闭式映射(closed-form mapping)**，将3D运动扰动转化为像素变化 - 分析**单应性(homography)** 的连续性，扩展**Lipschitz优化(Lipschitz optimization)** 和**分段连续性(piecewise continuity)** 技术，推导扰动像素值的**紧线性界(tight linear bounds)** - 方法适用于**平面结构场景** （如增强现实中的地面、自动驾驶中的道路标记与交通标志、机器人操作中的平面工作台）

💡 核心创新

- **首次形式验证(formal verification)** 射影几何变换（单应性），无需复杂仿真、**代理网络(surrogate networks)** 或显式成像模型 - 相比现有工作，实现**高达89%的加速** 和**7%的更紧边界**，显著提升效率与精度 - 揭示了视觉神经网络对**射影扰动(projective perturbations)** 的系统性弱点，并通过安全关键跑道分类器案例展示了实际漏洞

🏆 总体贡献

- 为**视觉神经网络在监管行业的形式化认证** 提供了处理相机运动扰动的新范式 - 在**VNN-COMP基准** 上系统评估并揭示了模型对射影扰动的脆弱性，推动鲁棒性标准完善 - 提供公开数据和代码（https://github.com/jeangud/homography-verification ），促进社区复现与后续研究