BioProVLA-Agent：一种经济实惠、协议驱动、视觉增强、基于VLA的具身多智能体系统，具备闭环推理能力，用于生物实验室操作

BioProVLA-Agent: An Affordable, Protocol-Driven, Vision-Enhanced VLA-Enabled Embodied Multi-Agent System with Closed-Loop-Capable Reasoning for Biological Laboratory Manipulation

作者: Zhaohui Du, Zhe Wang, Hongmei Fei 等10人

arXiv: 2605.07306v1

分类: cs.RO, cs.AI

📝 论文摘要

生物实验室自动化可以减少重复性人工操作并提升实验可重复性，但在湿实验环境中实现可靠的具身执行仍面临挑战。实验方案通常缺乏结构化设计，实验器具常呈透明或反光特性，多步骤流程需要具备状态感知能力的执行机制，而非简单的一次性指令遵循。现有机器人系统往往依赖昂贵的硬件、固定工作流程、专用仪器或面向机器人的交互界面。为此，我们提出了BioProVLA-Agent——一种基于视觉-语言-动作(VLA)模型的经济型、协议驱动、视觉增强型具身多智能体系统，专门用于生物操作。该系统将实验协议作为任务接口，通过闭环工作流程整合协议解析、视觉状态验证与具身执行。定制化LLM协议智能体将协议转化为可验证子任务；VLM-RAG验证智能体通过观测数据、机器人状态、检索知识及成功/失败案例评估准备就绪度与完成状态；VLA具身智能体则通过轻量级策略执行已验证的子任务。为增强系统在湿实验视觉扰动下的鲁棒性，我们开发了AugSmolVLA——一种针对透明器皿、反射、光照变化和过度曝光问题的在线增强策略。我们在包含15个原子任务、6个组合工作流和3个双臂任务（包括试管装载、分拣、废液处理、瓶盖旋拧和液体倾倒）的分层基准测试上进行了系统评估。在正常和高曝光条件下，AugSmolVLA在执行稳定性上优于ACT、X-VLA及原始SmolVLA，尤其在精密定位、透明物体操作、复合工作流及视觉退化场景中表现突出。这些结果表明，该方案为构建可获取、以协议为中心且具备验证能力的生物操作具身AI提供了可行路径。

📊 核心分析

🎯 研究动机

- 生物实验室**湿实验室(wet-lab)** 环境中的自动化执行仍面临挑战，现有系统依赖昂贵硬件、固定工作流和专用仪器 - 实验协议往往非结构化，实验器材常透明或反光，多步骤操作需要状态感知执行而非一次性指令 - 现有**具身机器人系统(embodied robotic systems)** 缺乏低成本、协议驱动、带视觉验证的闭环方案

🔧 核心方法

- 提出**BioProVLA-Agent**，一种基于**视觉-语言-动作(Vision-Language-Action, VLA)** 模型的多智能体系统，包含三个核心模块： - **Tailored LLM Protocol Agent**：将自然语言协议转换为可验证的子任务 - **VLM-RAG Verification Agent**：结合视觉观察、机器人状态、检索增强生成(RAG)及成功/失败样例进行状态验证 - **VLA Embodied Agent**：通过轻量级策略执行已验证的子任务 - 开发**AugSmolVLA** 在线增强策略，专门针对透明器皿、反射、光照偏移和过曝等湿实验室视觉干扰进行数据增强 - 采用**闭环(closed-loop)** 工作流：解析协议→视觉验证状态→执行→再验证，实现状态感知推理

💡 核心创新

- **协议驱动(protocol-driven)** 设计：直接用自然语言协议作为任务接口，无需专业机器人编程 - **闭环验证(closed-loop verification)** 机制：通过**VLM-RAG Verification Agent** 评估子任务就绪与完成状态，确保多步操作鲁棒性 - **低成本(affordable)** 架构：使用轻量级策略和常见硬件，替代昂贵专有系统 - **AugSmolVLA** 在线增强：针对湿实验室特有视觉干扰（透明、反光等）提升**VLA模型** 的鲁棒性

🏆 总体贡献

- 为生物实验室自动化提供了一种**可访问、协议为中心、可验证的具身AI(embodied AI)** 新范式 - 在分层基准（15个原子任务、6个组合工作流、3个双手任务）上，**AugSmolVLA** 显著提升执行稳定性，优于ACT、X-VLA和原始SmolVLA - 展示了闭环验证机制在精确放置、透明物体操作、组合工作流及视觉退化场景下的实际有效性 - 为降低具身智能在科学研究中的部署门槛提供了可行路径