← 返回论文列表

PRISM:在模拟具身环境中进行意图驱动的规划与推理
PRISM: : Planning and Reasoning with Intent in Simulated Embodied Environments

作者: Yunn Kang Lim, Pengzhan Sun, Ziyi Bai 等7人
arXiv: 2605.11534v1
分类: cs.RO
📝 论文摘要
当基于大语言模型的具身智能体在执行家务任务失败时,原因可能是物体识别错误、子目标遗漏或动作序列不当——然而现有基准仅报告单一成功率,无法判断是哪个认知模块导致的问题。我们提出PRISM,一个通过重构此问题的诊断基准:PRISM不仅追问"智能体是否成功?",更探究"哪种能力最可能导致失败?"。基于五个照片级真实多房间公寓(每套含4-8个房间),PRISM将300个经人工验证的任务结构化为三个能力层级——"基础能力"、"推理能力"与"长程能力"——分别隔离感知到动作的接地、隐式意图解析以及持续性多步协调。PRISM提供了一种与智能体无关的可执行动作API,允许任意智能体:包括大语言模型智能体、视觉语言模型智能体、符号规划器、强化学习策略及混合系统,在统一基准协议下进行端到端评估。为支持更深入的诊断,感知、记忆与规划的可选探针可以被采用、替换或完全绕过,从而在需要时实现受控的组件级分析。在七个当代大语言模型上的实验揭示了清晰的能力层级:在理想感知条件下,显式空间接地并非主要失败源;隐式意图解析是所有模型家族的重要瓶颈;而长程协调暴露了显著的能力断崖——轻量级模型的成功率低至20.0%,同时消耗的令牌数却超过前沿模型,这标志着补偿性过度推理而非真实的规划能力。项目页面:\href{https://sj-li.com/PROJ/PRISM}{链接}。

📊 核心分析

🎯 研究动机
- 现有**具身智能(embodied agent)** 基准仅报告单一成功率,无法诊断失败原因,如误识别物体、遗忘子目标或动作排序不当 - 研究背景:基于LLM的具身代理在家庭任务中经常失败,但缺乏能够定位认知模块缺陷的评估工具 - 需要一种**诊断性(diagnostic)** 基准,能够解析失败背后的具体能力层,而不仅判断成功与否
🔧 核心方法
- 提出**PRISM诊断基准**,包含300个人工校验任务,构建在5个**真实感多房间公寓(photorealistic multi-room apartments)** 环境中(每套4-8个房间) - 将任务系统地分为三个**能力层级(capability tiers)**:基础能力(Basic Ability)、推理能力(Reasoning Ability)、长程能力(Long-horizon Ability),分别隔离感知-动作映射、隐性意图解析和持续多步协调 - 提供**智能体无关的可执行动作API(agent-agnostic executable action API)**,支持LLM代理、VLM代理、符号规划器、强化学习策略及混合系统在统一协议下进行端到端评估 - 可选探针(probes)支持感知、记忆和规划模块的独立控制,允许按需进行组件级分析
💡 核心创新
- **诊断性框架**:首次将**能力缺陷定位(capability failure attribution)** 作为核心设计目标,而非仅报告成功率 - **三层能力隔离**:通过精心设计的任务层级,将不同认知模块的故障解耦,可独立分析基本感知、隐性意图和长程协调 - **模块化探针机制**:允许任意替换或绕过感知、记忆和规划探针,实现**受控组件级分析(controlled component-level analysis)** - **发现能力悬崖**:实验揭示轻量级模型在长程协调中成功率低至20.0%且消耗更多token,表现出**补偿性过度推理(compensatory over-reasoning)** 而非真正规划能力
🏆 总体贡献
- 为具身智能领域提供了一个**诊断性基准(diagnostic benchmark)** 新范式,将评估从“成功/失败”转向“哪个能力层失败” - 通过三个能力层级和模块化探针设计,使研究者能精确定位**感知-行动接地(perception-to-action grounding)**、**隐性意图解析(implicit intent resolution)** 和**长程协调(long-horizon coordination)** 的瓶颈 - 在7个当代LLM上进行了系统性实验,揭示了**隐性意图解析是普遍瓶颈**,并量化了不同模型家族在长程任务中的巨大能力差距 - 开源环境、任务和API(项目页面提供),促进社区复现与后续研究