在运行设计域内运行：基于视觉-语言模型的零样本感知

Operating Within the Operational Design Domain: Zero-Shot Perception with Vision-Language Models

作者: Berkehan Ünal, Dierend Hauke, Fazlija Dren 等4人

arXiv: 2605.07649v1

分类: cs.CV, cs.AI, cs.RO

📝 论文摘要

在过去几年中，自主系统的研究已成熟到这样的程度：该领域日益能够将研究成果转化为在明确界定的领域中、面向利益相关者的实际应用案例。然而，要实现自主系统的大规模实际应用，遵循安全法规至关重要。许多法规受到运行设计域（ODD）的影响，ODD定义了自主智能体能够运行的具体条件。这对于自动驾驶系统（ADS）尤为重要，因为对ODD元素的可靠感知是安全实施和审计的基础。视觉-语言模型（VLM）整合了视觉识别和语言推理，无需特定任务的训练数据即可运行，这使得它们适用于可适应的ODD感知。为了评估VLM是否能够作为适应不断变化定义的零样本“ODD传感器”，我们贡献了：（i）在自定义数据集和Mapillary Vistas上使用四种VLM进行零样本ODD分类和检测的实证研究，并进行了失败分析；（ii）对零样本优化策略的消融研究，附有成本-性能概览；（iii）一套可复用的提示模板及其适应指南。我们的发现表明，结合角色分解的、基于定义锚定的思维链提示表现最佳，而其他方法可能导致召回率降低。总体而言，我们的结果为安全关键应用中基于ODD的透明有效感知铺平了道路。

📊 核心分析

🎯 研究动机

- 自动驾驶系统安全监管要求严格遵守**运行设计域(Operational Design Domain, ODD)**，但ODD元素感知依赖任务特定训练数据，难以适应不断变化的定义 - 现有感知方法对ODD条件的适应性不足，缺乏零样本能力，无法灵活应对不同监管场景

🔧 核心方法

- 使用四种**视觉-语言模型(Vision-Language Model, VLM)** 进行零样本ODD分类和检测实验，构建定制数据集和**Mapillary Vistas** 基准 - 提出**定义锚定的链式思维提示(definition-anchored chain-of-thought prompting)** 结合**角色分解(persona decomposition)** 方法 - 提供一套可复用的提示模板及适配指南，并进行成本-性能概览的消融实验

💡 核心创新

- **首次系统性评估VLM作为零样本ODD传感器**，验证其在无任务特定训练数据下适应ODD定义变化的能力 - **定义锚定的链式思维提示+角色分解** 方法表现最优，避免其他方法导致的召回率下降 - 提供**成本-性能消融分析**，揭示不同零样本优化策略的权衡

🏆 总体贡献

- 为安全关键应用中的**ODD感知** 提供透明且有效的零样本方案，降低对标注数据的依赖 - 实践结果表明该方法可推动自动驾驶系统实际部署中的**安全合规性(auditing)** - 开放提示模板与实验框架，促进可重复研究与行业标准化