- 现有**神经符号任务规划器(neuro-symbolic task planner)** 在新领域部署需要大量手动工作:领域专家必须手动编写松弛和互补规则,以及生成数百个训练问题来监督**图神经网络(GNN)** 对象评分器
- 该论文旨在消除这三类手动工作,实现仅凭**PDDL域文件(PDDL domain file)** 即可自动生成规划器,降低部署成本
- 提出**LLM-Flax** 三阶段框架,仅需一个本地部署的**大语言模型(LLM)** 和PDDL域文件,无需任何手动标注
- **第一阶段**:通过**结构化提示(structured prompting)**、**格式验证(format validation)** 和**自我修正(self-correction)** 自动生成松弛规则和互补规则
- **第二阶段**:引入**LLM引导的故障恢复(LLM-guided failure recovery)**,采用**可行性门控预算策略(feasibility-gated budget policy)**,在每次LLM调用前预留API延迟成本,防止下游松弛回退被资源饥饿
- **第三阶段**:用**零样本LLM对象重要性评分(zero-shot LLM object importance scoring)** 完全替代领域训练的GNN,无需任何训练数据
- **完全消除手动工作**:首次实现无需领域专家编写规则和无需GNN训练数据即可获得高性能的神经符号任务规划器
- **自动规则生成**:利用LLM的推理能力,通过结构化提示和自我修正生成高质量的松弛和互补规则,替代人工设计
- **LLM引导的故障恢复预算策略**:显式管理LLM调用成本,确保在有限API预算下最大化故障恢复成功率,避免下游回退失效
- **零样本对象评分**:直接使用LLM进行对象重要性打分,完全替代需要大量训练数据的GNN,实现零训练样本的泛化
- 在**MazeNamo基准(MazeNamo benchmark)** 上(8个基准,网格尺寸10x10、12x12、15x15)进行了全面评估,**LLM-Flax** 平均**成功率(SR)** 达到0.945,相比手动基线0.828提升0.117,且在每一个基准上均匹配或超越手动规则
- 在极端困难场景(如12x12 Expert)中,手动完全失败(SR 0.000)而LLM-Flax仍能取得0.733的成功率;在15x15 Hard上达到1.000(手动0.900),展示了其卓越的泛化能力
- 第三阶段零样本方案验证了可行性(12x12 Hard上SR 0.720),但揭示了**上下文窗口瓶颈(context-window bottleneck)** 为未来核心开放挑战,为后续研究指明了方向