← 返回论文列表

使用视觉对齐的4D雷达的天气鲁棒场景语义
Weather-Robust Scene Semantics with Vision-Aligned 4D Radar

作者: Kali Hamilton, Christoffer Heckman
arXiv: 2605.07367v1
分类: cs.RO, cs.CV
📝 论文摘要
摄像头和激光雷达在雨、雾、雪环境中性能下降,而毫米波雷达基本不受影响。我们将雷达编码器与冻结的SigLIP视觉嵌入对齐,并通过约700万可训练参数的冻结视觉-语言模型(VLM)解码结构化场景描述。在包含独立雾天、小雪和大雪序列的K-RADAR数据集上,所有雷达配置均优于摄像头基线——后者在超过90%的情况下出现幻觉。我们发现,将雷达桥接到冻结VLM时,令牌-归一化失配是主要失败模式,并证明在投影器输出端应用层归一化可解决该问题。对编码器复杂度、描述格式和池化策略的分析揭示了权衡关系,为未来雷达-VLM流水线设计提供参考。

📊 核心分析

🎯 研究动机
- 解决恶劣天气(雨、雾、雪)下**场景语义理解(Scene Semantics)** 性能退化的问题 - 相机和**LiDAR** 在恶劣天气中表现不佳,而**毫米波雷达(mmWave radar)** 保持鲁棒 - 现有方法缺乏将雷达信号有效桥接到**视觉语言模型(VLM)** 的机制,导致幻觉严重
🔧 核心方法
- 将**雷达编码器(radar encoder)** 对齐到冻结的**SigLIP视觉嵌入(SigLIP vision embeddings)** - 通过冻结的**视觉语言模型(VLM)** 解码生成结构化场景描述 - 仅训练约7M个可学习参数,保持VLM冻结 - 使用**投影器输出层归一化(projector-output LayerNorm)** 解决**token-norm不匹配(token-norm mismatch)** 问题
💡 核心创新
- **首创性**:首次将**4D雷达(4D radar)** 与冻结的**视觉语言模型(VLM)** 结合,实现天气鲁棒的场景语义 - **失败模式诊断**:识别并解决了雷达到冻结VLM的**token-norm不匹配** 这一主导失败模式 - **低资源适配**:仅需约7M可训练参数即可有效对齐雷达与VLM,远低于从头训练 - **性能优势**:在雾、小雪、大雪等恶劣天气下,所有雷达配置显著优于相机基线,后者幻觉率超过90%
🏆 总体贡献
- 提出一种**天气鲁棒的场景语义** 新范式,利用雷达的鲁棒性替代相机 - 在**K-RADAR** 数据集(含恶劣天气子集)上验证了雷达配置的显著优势 - 分析并揭示**编码器复杂度(encoder complexity)**、**字幕格式(caption format)** 和**池化策略(pooling strategy)** 的权衡,为未来**雷达-VLM流水线(radar-VLM pipeline)** 设计提供指导 - 推动**多模态融合(multimodal fusion)** 在极端天气下的实际应用