← 返回论文列表

LLM-Flax:基于大语言模型的神经符号方法实现可泛化机器人任务规划
LLM-Flax : Generalizable Robotic Task Planning via Neuro-Symbolic Approaches with Large Language Models

作者: Seongmin Kim, Daegyu Lee
arXiv: 2604.26569v1
分类: cs.RO
📝 论文摘要
在当前新领域部署神经符号任务规划器需要大量人工投入:领域专家必须编写松弛规则和补充规则,且需解决数百个训练问题以监督图神经网络(GNN)对象评分器。本文提出LLM-Flax——一个三阶段框架,仅需给定PDDL领域文件,利用本地托管的大语言模型(LLM)即可消除上述所有人工投入。第一阶段通过带格式验证和自纠正的结构化提示自动生成松弛规则和补充规则。第二阶段引入LLM引导的故障恢复机制,采用可行性门控预算策略——在每次调用LLM前显式预留API延迟成本,防止下游松弛回退机制因资源匮乏而失效。第三阶段完全用零样本LLM对象重要性评分替代领域训练的GNN,无需任何训练数据。我们在MazeNamo基准测试的10x10、12x12和15x15网格(共8个基准)上评估了所有三个阶段。LLM-Flax平均成功率达0.945,高于人工基线的0.828(提升0.117),在全部八个基准中的每个基准上均匹配或超越人工规则。在12x12 Expert基准中,人工规划器完全失败(成功率0.000),而LLM-Flax达到0.733;在15x15 Hard基准中,LLM-Flax达到1.000,人工规则为0.900。第三阶段展示了可行性(在12x12 Hard上无训练数据时成功率达0.720),但在大规模场景下面临上下文窗口瓶颈,这指出了未来工作的主要开放挑战。

📊 核心分析

🎯 研究动机
- 现有**神经符号任务规划器(neuro-symbolic task planner)** 在新领域部署需要大量手动工作:领域专家必须手动编写松弛和互补规则,以及生成数百个训练问题来监督**图神经网络(GNN)** 对象评分器 - 该论文旨在消除这三类手动工作,实现仅凭**PDDL域文件(PDDL domain file)** 即可自动生成规划器,降低部署成本
🔧 核心方法
- 提出**LLM-Flax** 三阶段框架,仅需一个本地部署的**大语言模型(LLM)** 和PDDL域文件,无需任何手动标注 - **第一阶段**:通过**结构化提示(structured prompting)**、**格式验证(format validation)** 和**自我修正(self-correction)** 自动生成松弛规则和互补规则 - **第二阶段**:引入**LLM引导的故障恢复(LLM-guided failure recovery)**,采用**可行性门控预算策略(feasibility-gated budget policy)**,在每次LLM调用前预留API延迟成本,防止下游松弛回退被资源饥饿 - **第三阶段**:用**零样本LLM对象重要性评分(zero-shot LLM object importance scoring)** 完全替代领域训练的GNN,无需任何训练数据
💡 核心创新
- **完全消除手动工作**:首次实现无需领域专家编写规则和无需GNN训练数据即可获得高性能的神经符号任务规划器 - **自动规则生成**:利用LLM的推理能力,通过结构化提示和自我修正生成高质量的松弛和互补规则,替代人工设计 - **LLM引导的故障恢复预算策略**:显式管理LLM调用成本,确保在有限API预算下最大化故障恢复成功率,避免下游回退失效 - **零样本对象评分**:直接使用LLM进行对象重要性打分,完全替代需要大量训练数据的GNN,实现零训练样本的泛化
🏆 总体贡献
- 在**MazeNamo基准(MazeNamo benchmark)** 上(8个基准,网格尺寸10x10、12x12、15x15)进行了全面评估,**LLM-Flax** 平均**成功率(SR)** 达到0.945,相比手动基线0.828提升0.117,且在每一个基准上均匹配或超越手动规则 - 在极端困难场景(如12x12 Expert)中,手动完全失败(SR 0.000)而LLM-Flax仍能取得0.733的成功率;在15x15 Hard上达到1.000(手动0.900),展示了其卓越的泛化能力 - 第三阶段零样本方案验证了可行性(12x12 Hard上SR 0.720),但揭示了**上下文窗口瓶颈(context-window bottleneck)** 为未来核心开放挑战,为后续研究指明了方向