该论文旨在解决基于视觉-语言-动作(Vision-Language-Action, VLA)模型的智能体在复杂化学实验室自动化任务中面临的挑战:
• 现有VLA模型在长时程推理(long-horizon reasoning)方面能力有限,且缺乏持续的经验积累机制。
• 现有框架通常将规划(planning)与执行(execution)解耦,难以整合成功的策略,导致在多阶段实验协议中效率低下,陷入反复试错(trial-and-error)。
论文提出了名为ChemBot的双层闭环框架,具体方法包括:
• 构建一个集成了自主AI智能体与进度感知VLA模型(Skill-VLA)的系统,用于分层任务分解与执行。
• 采用双层记忆架构(dual-layer memory architecture)来巩固成功的任务轨迹(trajectories),并将其转化为可检索的资产。
• 引入模型上下文协议(Model Context Protocol, MCP)服务器,以高效协调子智能体(sub-agent)和工具。
• 针对VLA模型的固有局限,实施了基于未来状态(future-state-based)的异步推理机制(asynchronous inference mechanism),以缓解轨迹不连续性问题。
论文的核心创新点在于:
• **双层闭环框架与记忆架构**:提出了一个集成了进度感知VLA模型(Skill-VLA)与双层记忆的闭环框架(ChemBot),实现了对成功实验策略的持续积累与复用,突破了现有VLA模型在长时程任务中缺乏经验记忆的瓶颈。
• **基于未来状态的异步推理**:针对VLA模型在序列决策中常见的轨迹不连续性,创新性地引入了基于未来状态的异步推理机制,提升了长时程任务执行的连贯性与鲁棒性。
• **MCP服务器驱动的智能体编排**:通过模型上下文协议(MCP)服务器实现了子智能体与工具的高效、动态编排(orchestration),将规划与执行更紧密地耦合,区别于传统解耦框架。
论文对该领域的整体贡献是:
• 提出了一个专门针对复杂、长时程化学实验自动化的新型智能体框架(ChemBot),显著提升了操作安全性、精度和任务成功率。
• 通过引入可积累、可检索的记忆机制和异步推理,为VLA模型在具身决策(embodied decision-making)和开放世界任务执行中实现长期记忆(long-term memory)和持续学习提供了可行的技术路径。
• 在协作机器人上的大量实验验证了该框架相对于现有VLA基线模型的优越性,推动了VLA模型从短序列指令执行向复杂、多阶段科学工作流自动化应用的迈进。