- 解决恶劣天气(雨、雾、雪)下**场景语义理解(Scene Semantics)** 性能退化的问题
- 相机和**LiDAR** 在恶劣天气中表现不佳,而**毫米波雷达(mmWave radar)** 保持鲁棒
- 现有方法缺乏将雷达信号有效桥接到**视觉语言模型(VLM)** 的机制,导致幻觉严重
- 将**雷达编码器(radar encoder)** 对齐到冻结的**SigLIP视觉嵌入(SigLIP vision embeddings)**
- 通过冻结的**视觉语言模型(VLM)** 解码生成结构化场景描述
- 仅训练约7M个可学习参数,保持VLM冻结
- 使用**投影器输出层归一化(projector-output LayerNorm)** 解决**token-norm不匹配(token-norm mismatch)** 问题
- **首创性**:首次将**4D雷达(4D radar)** 与冻结的**视觉语言模型(VLM)** 结合,实现天气鲁棒的场景语义
- **失败模式诊断**:识别并解决了雷达到冻结VLM的**token-norm不匹配** 这一主导失败模式
- **低资源适配**:仅需约7M可训练参数即可有效对齐雷达与VLM,远低于从头训练
- **性能优势**:在雾、小雪、大雪等恶劣天气下,所有雷达配置显著优于相机基线,后者幻觉率超过90%
- 提出一种**天气鲁棒的场景语义** 新范式,利用雷达的鲁棒性替代相机
- 在**K-RADAR** 数据集(含恶劣天气子集)上验证了雷达配置的显著优势
- 分析并揭示**编码器复杂度(encoder complexity)**、**字幕格式(caption format)** 和**池化策略(pooling strategy)** 的权衡,为未来**雷达-VLM流水线(radar-VLM pipeline)** 设计提供指导
- 推动**多模态融合(multimodal fusion)** 在极端天气下的实际应用