← 返回论文列表

通过自我调节的模拟规划实现高效智能体推理
Efficient Agentic Reasoning Through Self-Regulated Simulative Planning

作者: Mingkai Deng, Jinyu Hou, Lara Sá Neves 等7人
arXiv: 2605.22138v1
分类: cs.AI, cs.CL, cs.LG, cs.RO
📝 论文摘要
代理应如何决定何时以及如何进行规划?主流方法是将代理构建为具有自适应计算能力(例如思维链)的反应式策略,并通过端到端训练期望规划隐式涌现。由于无法控制规划的存在性、结构或视野,这些系统会大幅增加推理长度,导致令牌使用效率低下且无法可靠提升准确率。我们认为高效的代理推理应通过将决策分解为三个系统来受益:模拟推理(系统II)通过世界模型基于未来状态预测进行深思熟虑;自我调节(系统III)通过可学习的配置器决定何时以及多深入地进行规划;以及反应式执行(系统I)处理细粒度动作。模拟推理无需针对不同领域进行工程化设计即可提供跨多样任务的统一规划,而自我调节则确保仅在需要时调用规划器。为验证这一方案,我们开发了SR$^2$AM(自调节模拟推理代理大语言模型),将两者作为大语言模型思维链中的独立阶段实现,并以该大语言模型作为世界模型。我们探索了两种实例化方式:从提示驱动的多模块系统(v0.1)中记录决策,以及从预训练推理大语言模型的轨迹(v1.0)中重建结构化规划,并通过监督学习与强化学习进行训练。在数学、科学、表格分析与网络信息检索任务中,v0.1-8B与v1.0-30B模型分别达到了与120-355B及685B-1T参数系统相当的Pass@1性能,同时v1.0-30B模型相比同类代理大语言模型减少了25.8%-95.3%的推理令牌使用量。强化学习使平均规划视野增加22.8%,而规划频率仅增长2.0%,表明模型学会了更长远而非更频繁的规划。更广泛而言,可学习的自我调节体现了一条原则——我们预期该原则将超越规划范畴,延伸至代理如何管控自身学习与适应过程。

📊 核心分析

🎯 研究动机
- 现有代理(agent)系统将推理作为反应式策略(reactive policy)端到端训练,导致推理长度不可控(token使用效率低)且准确率不可靠 - 缺乏对规划何时、如何启动的控制机制,造成不必要的token浪费 - 研究背景:LLM作为世界模型(world model)进行模拟推理时,需要一种自调节(self-regulation)机制来动态决定规划深度和频率,而非总是深度推理
🔧 核心方法
- 提出**SR$^2$AM (Self-Regulated Simulative Reasoning Agentic LLM)** 框架,将决策分解为**模拟推理(Simulative Reasoning, System II)**、**自我调节(Self-Regulation, System III)** 和**反应执行(Reactive Execution, System I)** 三个系统 - 在LLM的思维链(chain-of-thought)内实现:System II通过世界模型进行未来状态预测实现规划,System III通过可学习的配置器(learned configurator)决定何时及多深地规划 - 两种实例化:v0.1基于提示的多模块系统记录决策,v1.0从预训练推理LLM的轨迹(traces)重构结构化规划,并通过监督学习(supervised learning)和强化学习(reinforcement learning, RL)训练
💡 核心创新
- **首创性**:首次将**自我调节(System III)** 作为独立系统引入代理推理,动态控制规划的启动与深度,而非隐式涌现 - **效率提升**:v1.0-30B相比同等代理LLM减少25.8%-95.3%的推理token(token),同时达到与120B-1T参数模型相当的Pass@1性能 - **学习到更长远规划而非更频繁规划**:RL训练使平均规划视野(horizon)提升22.8%,而规划频率仅增加2.0%,表明模型学会在必要时深入规划,而非频繁调用 - **统一规划范式**:模拟推理通过世界模型为多种任务提供统一规划,无需每个领域单独工程设计
🏆 总体贡献
- 为**代理推理(agentic reasoning)** 提供了一种**高效(token效率高)** 且**可调控(planning horizon可控)** 的新范式,通过分解决策系统平衡准确性与计算成本 - 在数学、科学、表格分析、网络信息检索等多任务基准上以极低参数规模达到或超越超大模型性能,验证了自我调节的有效性 - 提出**自我调节原则(self-regulation principle)**,可扩展至代理的学习和适应(adaptation)过程,超越规划本身 - 提供了两个实例化版本(v0.1-8B和v1.0-30B),开源潜力促进后续研究