- 生物实验室**湿实验室(wet-lab)** 环境中的自动化执行仍面临挑战,现有系统依赖昂贵硬件、固定工作流和专用仪器
- 实验协议往往非结构化,实验器材常透明或反光,多步骤操作需要状态感知执行而非一次性指令
- 现有**具身机器人系统(embodied robotic systems)** 缺乏低成本、协议驱动、带视觉验证的闭环方案
- 提出**BioProVLA-Agent**,一种基于**视觉-语言-动作(Vision-Language-Action, VLA)** 模型的多智能体系统,包含三个核心模块:
- **Tailored LLM Protocol Agent**:将自然语言协议转换为可验证的子任务
- **VLM-RAG Verification Agent**:结合视觉观察、机器人状态、检索增强生成(RAG)及成功/失败样例进行状态验证
- **VLA Embodied Agent**:通过轻量级策略执行已验证的子任务
- 开发**AugSmolVLA** 在线增强策略,专门针对透明器皿、反射、光照偏移和过曝等湿实验室视觉干扰进行数据增强
- 采用**闭环(closed-loop)** 工作流:解析协议→视觉验证状态→执行→再验证,实现状态感知推理
- **协议驱动(protocol-driven)** 设计:直接用自然语言协议作为任务接口,无需专业机器人编程
- **闭环验证(closed-loop verification)** 机制:通过**VLM-RAG Verification Agent** 评估子任务就绪与完成状态,确保多步操作鲁棒性
- **低成本(affordable)** 架构:使用轻量级策略和常见硬件,替代昂贵专有系统
- **AugSmolVLA** 在线增强:针对湿实验室特有视觉干扰(透明、反光等)提升**VLA模型** 的鲁棒性
- 为生物实验室自动化提供了一种**可访问、协议为中心、可验证的具身AI(embodied AI)** 新范式
- 在分层基准(15个原子任务、6个组合工作流、3个双手任务)上,**AugSmolVLA** 显著提升执行稳定性,优于ACT、X-VLA和原始SmolVLA
- 展示了闭环验证机制在精确放置、透明物体操作、组合工作流及视觉退化场景下的实际有效性
- 为降低具身智能在科学研究中的部署门槛提供了可行路径