← 返回论文列表

BioProVLA-Agent:一种经济实惠、协议驱动、视觉增强、基于VLA的具身多智能体系统,具备闭环推理能力,用于生物实验室操作
BioProVLA-Agent: An Affordable, Protocol-Driven, Vision-Enhanced VLA-Enabled Embodied Multi-Agent System with Closed-Loop-Capable Reasoning for Biological Laboratory Manipulation

作者: Zhaohui Du, Zhe Wang, Hongmei Fei 等10人
arXiv: 2605.07306v1
分类: cs.RO, cs.AI
📝 论文摘要
生物实验室自动化可以减少重复性人工操作并提升实验可重复性,但在湿实验环境中实现可靠的具身执行仍面临挑战。实验方案通常缺乏结构化设计,实验器具常呈透明或反光特性,多步骤流程需要具备状态感知能力的执行机制,而非简单的一次性指令遵循。现有机器人系统往往依赖昂贵的硬件、固定工作流程、专用仪器或面向机器人的交互界面。为此,我们提出了BioProVLA-Agent——一种基于视觉-语言-动作(VLA)模型的经济型、协议驱动、视觉增强型具身多智能体系统,专门用于生物操作。该系统将实验协议作为任务接口,通过闭环工作流程整合协议解析、视觉状态验证与具身执行。定制化LLM协议智能体将协议转化为可验证子任务;VLM-RAG验证智能体通过观测数据、机器人状态、检索知识及成功/失败案例评估准备就绪度与完成状态;VLA具身智能体则通过轻量级策略执行已验证的子任务。为增强系统在湿实验视觉扰动下的鲁棒性,我们开发了AugSmolVLA——一种针对透明器皿、反射、光照变化和过度曝光问题的在线增强策略。我们在包含15个原子任务、6个组合工作流和3个双臂任务(包括试管装载、分拣、废液处理、瓶盖旋拧和液体倾倒)的分层基准测试上进行了系统评估。在正常和高曝光条件下,AugSmolVLA在执行稳定性上优于ACT、X-VLA及原始SmolVLA,尤其在精密定位、透明物体操作、复合工作流及视觉退化场景中表现突出。这些结果表明,该方案为构建可获取、以协议为中心且具备验证能力的生物操作具身AI提供了可行路径。

📊 核心分析

🎯 研究动机
- 生物实验室**湿实验室(wet-lab)** 环境中的自动化执行仍面临挑战,现有系统依赖昂贵硬件、固定工作流和专用仪器 - 实验协议往往非结构化,实验器材常透明或反光,多步骤操作需要状态感知执行而非一次性指令 - 现有**具身机器人系统(embodied robotic systems)** 缺乏低成本、协议驱动、带视觉验证的闭环方案
🔧 核心方法
- 提出**BioProVLA-Agent**,一种基于**视觉-语言-动作(Vision-Language-Action, VLA)** 模型的多智能体系统,包含三个核心模块: - **Tailored LLM Protocol Agent**:将自然语言协议转换为可验证的子任务 - **VLM-RAG Verification Agent**:结合视觉观察、机器人状态、检索增强生成(RAG)及成功/失败样例进行状态验证 - **VLA Embodied Agent**:通过轻量级策略执行已验证的子任务 - 开发**AugSmolVLA** 在线增强策略,专门针对透明器皿、反射、光照偏移和过曝等湿实验室视觉干扰进行数据增强 - 采用**闭环(closed-loop)** 工作流:解析协议→视觉验证状态→执行→再验证,实现状态感知推理
💡 核心创新
- **协议驱动(protocol-driven)** 设计:直接用自然语言协议作为任务接口,无需专业机器人编程 - **闭环验证(closed-loop verification)** 机制:通过**VLM-RAG Verification Agent** 评估子任务就绪与完成状态,确保多步操作鲁棒性 - **低成本(affordable)** 架构:使用轻量级策略和常见硬件,替代昂贵专有系统 - **AugSmolVLA** 在线增强:针对湿实验室特有视觉干扰(透明、反光等)提升**VLA模型** 的鲁棒性
🏆 总体贡献
- 为生物实验室自动化提供了一种**可访问、协议为中心、可验证的具身AI(embodied AI)** 新范式 - 在分层基准(15个原子任务、6个组合工作流、3个双手任务)上,**AugSmolVLA** 显著提升执行稳定性,优于ACT、X-VLA和原始SmolVLA - 展示了闭环验证机制在精确放置、透明物体操作、组合工作流及视觉退化场景下的实际有效性 - 为降低具身智能在科学研究中的部署门槛提供了可行路径