← 返回论文列表

E-VLA:面向暗光与模糊场景的事件增强视觉-语言-动作模型
E-VLA: Event-Augmented Vision-Language-Action Model for Dark and Blurred Scenes

作者: Jiajun Zhai, Hao Shi, Shangwei Guo 等5人
arXiv: 2604.04834v1
分类: cs.CV, cs.MM, cs.RO, eess.IV
📝 论文摘要
机器人视觉-语言-动作(VLA)模型在开放式操作任务中展现出良好的泛化能力,但其感知系统在极端低光、运动模糊和黑场剪切等传感退化条件下表现脆弱。本文提出E-VLA——一种事件增强型VLA框架,能够在传统帧式视觉不可靠时提升操作鲁棒性。与从事件流重建图像的方法不同,E-VLA直接利用事件流中的运动与结构线索,在恶劣条件下保持语义感知与感知-动作一致性。我们搭建了配备DAVIS346事件相机的开源遥操作平台,采集了涵盖多任务与多光照场景的真实世界同步RGB-事件-动作操作数据集。同时提出轻量化、兼容预训练模型的事件集成策略,并研究事件窗口化与融合技术以实现稳定部署。实验表明,即使是简单的无参数融合(如在RGB图像上叠加累积事件图),也能显著提升黑暗与强模糊场景的鲁棒性:在20勒克斯光照的抓放任务中,成功率从纯图像的0%提升至叠加融合的60%,采用事件适配器后可达90%;在严重运动模糊场景(1000毫秒曝光)下,抓放任务成功率从0%提升至20-25%,分类任务从5%提升至32.5%。总体而言,E-VLA系统性地证明了事件驱动感知能有效融入VLA模型,为超越传统帧式成像的鲁棒具身智能指明方向。代码与数据集发布于https://github.com/JJayzee/E-VLA。

📊 核心分析

🎯 研究动机
该论文旨在解决机器人视觉-语言-动作(Vision-Language-Action, VLA)模型在感知阶段退化(如极低光照、运动模糊、黑场裁剪)下的脆弱性问题。研究背景是传统基于帧的视觉在恶劣条件下变得不可靠,限制了VLA模型在开放操作任务中的鲁棒性。
🔧 核心方法
论文提出了E-VLA框架,核心方法是: - 直接利用事件流中的运动和结构线索,而非从事件重建图像。 - 构建了一个开源的遥操作平台,使用DAVIS346事件相机,收集了真实世界的同步RGB-事件-动作操作数据集。 - 提出了轻量级、与预训练模型兼容的事件集成策略,研究了事件窗口化和融合方法以实现稳定部署。 - 采用了一种简单的无参数融合方法,即将累积的事件图叠加到RGB图像上。
💡 核心创新
论文的核心创新点在于: - **事件增强的VLA框架**:首次系统地将事件驱动感知(event-driven perception)集成到VLA模型中,以应对黑暗和模糊场景。 - **直接利用事件流**:不同于主流的事件到图像重建方法,E-VLA直接利用事件流中的原始运动和结构线索来保持语义感知和感知-动作一致性。 - **轻量级且兼容的集成策略**:提出了无需大量重新训练、可与现有预训练VLA模型兼容的事件适配器(event adapter)和融合方法,便于实际部署。
🏆 总体贡献
论文对该领域的总体贡献是: - 提出了E-VLA框架,为黑暗和模糊场景下的鲁棒操作提供了系统解决方案。 - 构建并开源了首个真实世界的同步RGB-事件-动作操作数据集,支持多样化的任务和光照设置。 - 通过实验提供了系统性证据,证明事件驱动感知可以有效地集成到VLA模型中,显著提升在恶劣视觉条件下的任务成功率(例如,在20勒克斯光照下,拾放任务成功率从0%提升至90%)。 - 为超越传统基于帧成像的鲁棒具身智能(embodied intelligence)指明了新的方向。