C-CoT: 基于视觉语言模型的反事实思维链用于安全自动驾驶

📝 论文摘要

复杂环境下的安全关键规划，尤其是在城市交叉口场景中，仍是自动驾驶面临的根本性挑战。现有方法（无论是基于规则还是数据驱动）通常难以捕捉复杂的场景语义、推断潜在风险，并在罕见的高风险场景中做出可靠决策。尽管视觉语言模型（VLM）为此类环境中的安全决策提供了有前景的方案，但当前大多数方法缺乏反思性与因果推理能力，从而限制了其整体鲁棒性。为解决这一问题，我们提出了一种反事实思维链（C-CoT）框架，利用VLM将驾驶决策分解为五个连续阶段：场景描述、关键目标识别、风险预测、反事实风险推理及最终动作规划。在反事实推理阶段，我们引入了一个结构化的元动作评估树，以显式评估替代动作组合的潜在后果。这种自我反思推理在动作选择与安全结果之间建立了因果联系，提升了长尾分布及分布外场景下的鲁棒性。为验证该方法，我们基于DeepAccident基准构建了DeepAccident-CCoT数据集，并采用低秩适配技术微调了Qwen2.5-VL（7B）模型。该模型的风险预测召回率达到81.9%，碰撞率降至3.52%，L2误差降至1.98米。消融实验进一步证实了反事实推理与元动作评估树在提升安全性与可解释性方面的关键作用。

🎯 研究动机

- 解决自动驾驶在**城市交叉口** 等复杂环境中的**安全关键规划(safety-critical planning)** 问题 - 现有基于规则或数据驱动的方法难以捕捉复杂场景语义、推断潜在风险，并在罕见高风险场景下做出可靠决策 - 当前**视觉语言模型(Vision-Language Models, VLMs)** 虽具有潜力，但缺乏**反思性(reflective)** 和**因果推理(causal reasoning)** 能力，限制了鲁棒性

🔧 核心方法

- 提出**反事实链式思维(Counterfactual Chain-of-Thought, C-CoT)** 框架，将驾驶决策分解为五个顺序阶段：**场景描述**、**关键物体识别**、**风险预测**、**反事实风险推理** 和**最终动作规划** - 在反事实推理阶段引入**结构化元动作评估树(meta-action evaluation tree)**，显式评估替代动作组合的潜在后果 - 基于**DeepAccident** 基准构建**DeepAccident-CCoT** 数据集，并利用**低秩适配(Low-Rank Adaptation, LoRA)** 微调**Qwen2.5-VL (7B)** 模型

💡 核心创新

- **反事实推理集成到链式思维**：首次将**反事实推理(counterfactual reasoning)** 与**链式思维(Chain-of-Thought, CoT)** 结合，赋予VLM自我反思能力 - **元动作评估树**：提出结构化树状推理机制，系统性地评估不同动作组合的后果，建立**动作选择与安全结果之间的因果链(causal link)** - **提升长尾分布鲁棒性**：通过显式因果推理，在**长尾(long-tail)** 和**分布外(out-of-distribution)** 场景中增强决策可靠性

🏆 总体贡献

- 为自动驾驶**安全决策** 提供了一种新的**因果推理范式(causal reasoning paradigm)**，显著提升模型的可解释性和安全性 - 在风险预测召回率（81.9%）、碰撞率（3.52%）和L2误差（1.98 m）等指标上达到优越性能 - 通过消融实验验证了**反事实推理** 和**元动作评估树** 的关键作用，并为后续研究提供了**DeepAccident-CCoT数据集** 和微调方法

C-CoT: 基于视觉语言模型的反事实思维链用于安全自动驾驶
C-CoT: Counterfactual Chain-of-Thought with Vision-Language Models for Safe Autonomous Driving

📊 核心分析

C-CoT: 基于视觉语言模型的反事实思维链用于安全自动驾驶 C-CoT: Counterfactual Chain-of-Thought with Vision-Language Models for Safe Autonomous Driving

📊 核心分析

C-CoT: 基于视觉语言模型的反事实思维链用于安全自动驾驶
C-CoT: Counterfactual Chain-of-Thought with Vision-Language Models for Safe Autonomous Driving