← 返回论文列表

在运行设计域内运行:基于视觉-语言模型的零样本感知
Operating Within the Operational Design Domain: Zero-Shot Perception with Vision-Language Models

作者: Berkehan Ünal, Dierend Hauke, Fazlija Dren 等4人
arXiv: 2605.07649v1
分类: cs.CV, cs.AI, cs.RO
📝 论文摘要
在过去几年中,自主系统的研究已成熟到这样的程度:该领域日益能够将研究成果转化为在明确界定的领域中、面向利益相关者的实际应用案例。然而,要实现自主系统的大规模实际应用,遵循安全法规至关重要。许多法规受到运行设计域(ODD)的影响,ODD定义了自主智能体能够运行的具体条件。这对于自动驾驶系统(ADS)尤为重要,因为对ODD元素的可靠感知是安全实施和审计的基础。视觉-语言模型(VLM)整合了视觉识别和语言推理,无需特定任务的训练数据即可运行,这使得它们适用于可适应的ODD感知。为了评估VLM是否能够作为适应不断变化定义的零样本“ODD传感器”,我们贡献了:(i)在自定义数据集和Mapillary Vistas上使用四种VLM进行零样本ODD分类和检测的实证研究,并进行了失败分析;(ii)对零样本优化策略的消融研究,附有成本-性能概览;(iii)一套可复用的提示模板及其适应指南。我们的发现表明,结合角色分解的、基于定义锚定的思维链提示表现最佳,而其他方法可能导致召回率降低。总体而言,我们的结果为安全关键应用中基于ODD的透明有效感知铺平了道路。

📊 核心分析

🎯 研究动机
- 自动驾驶系统安全监管要求严格遵守**运行设计域(Operational Design Domain, ODD)**,但ODD元素感知依赖任务特定训练数据,难以适应不断变化的定义 - 现有感知方法对ODD条件的适应性不足,缺乏零样本能力,无法灵活应对不同监管场景
🔧 核心方法
- 使用四种**视觉-语言模型(Vision-Language Model, VLM)** 进行零样本ODD分类和检测实验,构建定制数据集和**Mapillary Vistas** 基准 - 提出**定义锚定的链式思维提示(definition-anchored chain-of-thought prompting)** 结合**角色分解(persona decomposition)** 方法 - 提供一套可复用的提示模板及适配指南,并进行成本-性能概览的消融实验
💡 核心创新
- **首次系统性评估VLM作为零样本ODD传感器**,验证其在无任务特定训练数据下适应ODD定义变化的能力 - **定义锚定的链式思维提示+角色分解** 方法表现最优,避免其他方法导致的召回率下降 - 提供**成本-性能消融分析**,揭示不同零样本优化策略的权衡
🏆 总体贡献
- 为安全关键应用中的**ODD感知** 提供透明且有效的零样本方案,降低对标注数据的依赖 - 实践结果表明该方法可推动自动驾驶系统实际部署中的**安全合规性(auditing)** - 开放提示模板与实验框架,促进可重复研究与行业标准化