使用视觉对齐的4D雷达的天气鲁棒场景语义

📝 论文摘要

摄像头和激光雷达在雨、雾、雪环境中性能下降，而毫米波雷达基本不受影响。我们将雷达编码器与冻结的SigLIP视觉嵌入对齐，并通过约700万可训练参数的冻结视觉-语言模型（VLM）解码结构化场景描述。在包含独立雾天、小雪和大雪序列的K-RADAR数据集上，所有雷达配置均优于摄像头基线——后者在超过90%的情况下出现幻觉。我们发现，将雷达桥接到冻结VLM时，令牌-归一化失配是主要失败模式，并证明在投影器输出端应用层归一化可解决该问题。对编码器复杂度、描述格式和池化策略的分析揭示了权衡关系，为未来雷达-VLM流水线设计提供参考。

🎯 研究动机

- 解决恶劣天气（雨、雾、雪）下**场景语义理解(Scene Semantics)** 性能退化的问题 - 相机和**LiDAR** 在恶劣天气中表现不佳，而**毫米波雷达(mmWave radar)** 保持鲁棒 - 现有方法缺乏将雷达信号有效桥接到**视觉语言模型(VLM)** 的机制，导致幻觉严重

🔧 核心方法

- 将**雷达编码器(radar encoder)** 对齐到冻结的**SigLIP视觉嵌入(SigLIP vision embeddings)** - 通过冻结的**视觉语言模型(VLM)** 解码生成结构化场景描述 - 仅训练约7M个可学习参数，保持VLM冻结 - 使用**投影器输出层归一化(projector-output LayerNorm)** 解决**token-norm不匹配(token-norm mismatch)** 问题

💡 核心创新

- **首创性**：首次将**4D雷达(4D radar)** 与冻结的**视觉语言模型(VLM)** 结合，实现天气鲁棒的场景语义 - **失败模式诊断**：识别并解决了雷达到冻结VLM的**token-norm不匹配** 这一主导失败模式 - **低资源适配**：仅需约7M可训练参数即可有效对齐雷达与VLM，远低于从头训练 - **性能优势**：在雾、小雪、大雪等恶劣天气下，所有雷达配置显著优于相机基线，后者幻觉率超过90%

🏆 总体贡献

- 提出一种**天气鲁棒的场景语义** 新范式，利用雷达的鲁棒性替代相机 - 在**K-RADAR** 数据集（含恶劣天气子集）上验证了雷达配置的显著优势 - 分析并揭示**编码器复杂度(encoder complexity)**、**字幕格式(caption format)** 和**池化策略(pooling strategy)** 的权衡，为未来**雷达-VLM流水线(radar-VLM pipeline)** 设计提供指导 - 推动**多模态融合(multimodal fusion)** 在极端天气下的实际应用

使用视觉对齐的4D雷达的天气鲁棒场景语义
Weather-Robust Scene Semantics with Vision-Aligned 4D Radar

📊 核心分析

使用视觉对齐的4D雷达的天气鲁棒场景语义 Weather-Robust Scene Semantics with Vision-Aligned 4D Radar

📊 核心分析

使用视觉对齐的4D雷达的天气鲁棒场景语义
Weather-Robust Scene Semantics with Vision-Aligned 4D Radar