E-VLA：面向暗光与模糊场景的事件增强视觉-语言-动作模型

📝 论文摘要

机器人视觉-语言-动作（VLA）模型在开放式操作任务中展现出良好的泛化能力，但其感知系统在极端低光、运动模糊和黑场剪切等传感退化条件下表现脆弱。本文提出E-VLA——一种事件增强型VLA框架，能够在传统帧式视觉不可靠时提升操作鲁棒性。与从事件流重建图像的方法不同，E-VLA直接利用事件流中的运动与结构线索，在恶劣条件下保持语义感知与感知-动作一致性。我们搭建了配备DAVIS346事件相机的开源遥操作平台，采集了涵盖多任务与多光照场景的真实世界同步RGB-事件-动作操作数据集。同时提出轻量化、兼容预训练模型的事件集成策略，并研究事件窗口化与融合技术以实现稳定部署。实验表明，即使是简单的无参数融合（如在RGB图像上叠加累积事件图），也能显著提升黑暗与强模糊场景的鲁棒性：在20勒克斯光照的抓放任务中，成功率从纯图像的0%提升至叠加融合的60%，采用事件适配器后可达90%；在严重运动模糊场景（1000毫秒曝光）下，抓放任务成功率从0%提升至20-25%，分类任务从5%提升至32.5%。总体而言，E-VLA系统性地证明了事件驱动感知能有效融入VLA模型，为超越传统帧式成像的鲁棒具身智能指明方向。代码与数据集发布于https://github.com/JJayzee/E-VLA。

🎯 研究动机

该论文旨在解决机器人视觉-语言-动作(Vision-Language-Action, VLA)模型在感知阶段退化（如极低光照、运动模糊、黑场裁剪）下的脆弱性问题。研究背景是传统基于帧的视觉在恶劣条件下变得不可靠，限制了VLA模型在开放操作任务中的鲁棒性。

🔧 核心方法

论文提出了E-VLA框架，核心方法是： - 直接利用事件流中的运动和结构线索，而非从事件重建图像。 - 构建了一个开源的遥操作平台，使用DAVIS346事件相机，收集了真实世界的同步RGB-事件-动作操作数据集。 - 提出了轻量级、与预训练模型兼容的事件集成策略，研究了事件窗口化和融合方法以实现稳定部署。 - 采用了一种简单的无参数融合方法，即将累积的事件图叠加到RGB图像上。

💡 核心创新

论文的核心创新点在于： - **事件增强的VLA框架**：首次系统地将事件驱动感知(event-driven perception)集成到VLA模型中，以应对黑暗和模糊场景。 - **直接利用事件流**：不同于主流的事件到图像重建方法，E-VLA直接利用事件流中的原始运动和结构线索来保持语义感知和感知-动作一致性。 - **轻量级且兼容的集成策略**：提出了无需大量重新训练、可与现有预训练VLA模型兼容的事件适配器(event adapter)和融合方法，便于实际部署。

🏆 总体贡献

论文对该领域的总体贡献是： - 提出了E-VLA框架，为黑暗和模糊场景下的鲁棒操作提供了系统解决方案。 - 构建并开源了首个真实世界的同步RGB-事件-动作操作数据集，支持多样化的任务和光照设置。 - 通过实验提供了系统性证据，证明事件驱动感知可以有效地集成到VLA模型中，显著提升在恶劣视觉条件下的任务成功率（例如，在20勒克斯光照下，拾放任务成功率从0%提升至90%）。 - 为超越传统基于帧成像的鲁棒具身智能(embodied intelligence)指明了新的方向。

E-VLA：面向暗光与模糊场景的事件增强视觉-语言-动作模型
E-VLA: Event-Augmented Vision-Language-Action Model for Dark and Blurred Scenes

📊 核心分析

E-VLA：面向暗光与模糊场景的事件增强视觉-语言-动作模型 E-VLA: Event-Augmented Vision-Language-Action Model for Dark and Blurred Scenes

📊 核心分析

E-VLA：面向暗光与模糊场景的事件增强视觉-语言-动作模型
E-VLA: Event-Augmented Vision-Language-Action Model for Dark and Blurred Scenes