该论文旨在解决机器人视觉-语言-动作(Vision-Language-Action, VLA)模型在感知阶段退化(如极低光照、运动模糊、黑场裁剪)下的脆弱性问题。研究背景是传统基于帧的视觉在恶劣条件下变得不可靠,限制了VLA模型在开放操作任务中的鲁棒性。
论文提出了E-VLA框架,核心方法是:
- 直接利用事件流中的运动和结构线索,而非从事件重建图像。
- 构建了一个开源的遥操作平台,使用DAVIS346事件相机,收集了真实世界的同步RGB-事件-动作操作数据集。
- 提出了轻量级、与预训练模型兼容的事件集成策略,研究了事件窗口化和融合方法以实现稳定部署。
- 采用了一种简单的无参数融合方法,即将累积的事件图叠加到RGB图像上。
论文的核心创新点在于:
- **事件增强的VLA框架**:首次系统地将事件驱动感知(event-driven perception)集成到VLA模型中,以应对黑暗和模糊场景。
- **直接利用事件流**:不同于主流的事件到图像重建方法,E-VLA直接利用事件流中的原始运动和结构线索来保持语义感知和感知-动作一致性。
- **轻量级且兼容的集成策略**:提出了无需大量重新训练、可与现有预训练VLA模型兼容的事件适配器(event adapter)和融合方法,便于实际部署。
论文对该领域的总体贡献是:
- 提出了E-VLA框架,为黑暗和模糊场景下的鲁棒操作提供了系统解决方案。
- 构建并开源了首个真实世界的同步RGB-事件-动作操作数据集,支持多样化的任务和光照设置。
- 通过实验提供了系统性证据,证明事件驱动感知可以有效地集成到VLA模型中,显著提升在恶劣视觉条件下的任务成功率(例如,在20勒克斯光照下,拾放任务成功率从0%提升至90%)。
- 为超越传统基于帧成像的鲁棒具身智能(embodied intelligence)指明了新的方向。