- 现有代理(agent)系统将推理作为反应式策略(reactive policy)端到端训练,导致推理长度不可控(token使用效率低)且准确率不可靠
- 缺乏对规划何时、如何启动的控制机制,造成不必要的token浪费
- 研究背景:LLM作为世界模型(world model)进行模拟推理时,需要一种自调节(self-regulation)机制来动态决定规划深度和频率,而非总是深度推理
- 提出**SR$^2$AM (Self-Regulated Simulative Reasoning Agentic LLM)** 框架,将决策分解为**模拟推理(Simulative Reasoning, System II)**、**自我调节(Self-Regulation, System III)** 和**反应执行(Reactive Execution, System I)** 三个系统
- 在LLM的思维链(chain-of-thought)内实现:System II通过世界模型进行未来状态预测实现规划,System III通过可学习的配置器(learned configurator)决定何时及多深地规划
- 两种实例化:v0.1基于提示的多模块系统记录决策,v1.0从预训练推理LLM的轨迹(traces)重构结构化规划,并通过监督学习(supervised learning)和强化学习(reinforcement learning, RL)训练
- **首创性**:首次将**自我调节(System III)** 作为独立系统引入代理推理,动态控制规划的启动与深度,而非隐式涌现
- **效率提升**:v1.0-30B相比同等代理LLM减少25.8%-95.3%的推理token(token),同时达到与120B-1T参数模型相当的Pass@1性能
- **学习到更长远规划而非更频繁规划**:RL训练使平均规划视野(horizon)提升22.8%,而规划频率仅增加2.0%,表明模型学会在必要时深入规划,而非频繁调用
- **统一规划范式**:模拟推理通过世界模型为多种任务提供统一规划,无需每个领域单独工程设计
- 为**代理推理(agentic reasoning)** 提供了一种**高效(token效率高)** 且**可调控(planning horizon可控)** 的新范式,通过分解决策系统平衡准确性与计算成本
- 在数学、科学、表格分析、网络信息检索等多任务基准上以极低参数规模达到或超越超大模型性能,验证了自我调节的有效性
- 提出**自我调节原则(self-regulation principle)**,可扩展至代理的学习和适应(adaptation)过程,超越规划本身
- 提供了两个实例化版本(v0.1-8B和v1.0-30B),开源潜力促进后续研究