PRISM：在模拟具身环境中进行意图驱动的规划与推理

📝 论文摘要

当基于大语言模型的具身智能体在执行家务任务失败时，原因可能是物体识别错误、子目标遗漏或动作序列不当——然而现有基准仅报告单一成功率，无法判断是哪个认知模块导致的问题。我们提出PRISM，一个通过重构此问题的诊断基准：PRISM不仅追问"智能体是否成功？"，更探究"哪种能力最可能导致失败？"。基于五个照片级真实多房间公寓（每套含4-8个房间），PRISM将300个经人工验证的任务结构化为三个能力层级——"基础能力"、"推理能力"与"长程能力"——分别隔离感知到动作的接地、隐式意图解析以及持续性多步协调。PRISM提供了一种与智能体无关的可执行动作API，允许任意智能体：包括大语言模型智能体、视觉语言模型智能体、符号规划器、强化学习策略及混合系统，在统一基准协议下进行端到端评估。为支持更深入的诊断，感知、记忆与规划的可选探针可以被采用、替换或完全绕过，从而在需要时实现受控的组件级分析。在七个当代大语言模型上的实验揭示了清晰的能力层级：在理想感知条件下，显式空间接地并非主要失败源；隐式意图解析是所有模型家族的重要瓶颈；而长程协调暴露了显著的能力断崖——轻量级模型的成功率低至20.0%，同时消耗的令牌数却超过前沿模型，这标志着补偿性过度推理而非真实的规划能力。项目页面：\href{https://sj-li.com/PROJ/PRISM}{链接}。

🎯 研究动机

- 现有**具身智能(embodied agent)** 基准仅报告单一成功率，无法诊断失败原因，如误识别物体、遗忘子目标或动作排序不当 - 研究背景：基于LLM的具身代理在家庭任务中经常失败，但缺乏能够定位认知模块缺陷的评估工具 - 需要一种**诊断性(diagnostic)** 基准，能够解析失败背后的具体能力层，而不仅判断成功与否

🔧 核心方法

- 提出**PRISM诊断基准**，包含300个人工校验任务，构建在5个**真实感多房间公寓(photorealistic multi-room apartments)** 环境中（每套4-8个房间） - 将任务系统地分为三个**能力层级(capability tiers)**：基础能力(Basic Ability)、推理能力(Reasoning Ability)、长程能力(Long-horizon Ability)，分别隔离感知-动作映射、隐性意图解析和持续多步协调 - 提供**智能体无关的可执行动作API(agent-agnostic executable action API)**，支持LLM代理、VLM代理、符号规划器、强化学习策略及混合系统在统一协议下进行端到端评估 - 可选探针(probes)支持感知、记忆和规划模块的独立控制，允许按需进行组件级分析

💡 核心创新

- **诊断性框架**：首次将**能力缺陷定位(capability failure attribution)** 作为核心设计目标，而非仅报告成功率 - **三层能力隔离**：通过精心设计的任务层级，将不同认知模块的故障解耦，可独立分析基本感知、隐性意图和长程协调 - **模块化探针机制**：允许任意替换或绕过感知、记忆和规划探针，实现**受控组件级分析(controlled component-level analysis)** - **发现能力悬崖**：实验揭示轻量级模型在长程协调中成功率低至20.0%且消耗更多token，表现出**补偿性过度推理(compensatory over-reasoning)** 而非真正规划能力

🏆 总体贡献

- 为具身智能领域提供了一个**诊断性基准(diagnostic benchmark)** 新范式，将评估从“成功/失败”转向“哪个能力层失败” - 通过三个能力层级和模块化探针设计，使研究者能精确定位**感知-行动接地(perception-to-action grounding)**、**隐性意图解析(implicit intent resolution)** 和**长程协调(long-horizon coordination)** 的瓶颈 - 在7个当代LLM上进行了系统性实验，揭示了**隐性意图解析是普遍瓶颈**，并量化了不同模型家族在长程任务中的巨大能力差距 - 开源环境、任务和API（项目页面提供），促进社区复现与后续研究

PRISM：在模拟具身环境中进行意图驱动的规划与推理
PRISM: : Planning and Reasoning with Intent in Simulated Embodied Environments

📊 核心分析

PRISM：在模拟具身环境中进行意图驱动的规划与推理 PRISM: : Planning and Reasoning with Intent in Simulated Embodied Environments

📊 核心分析

PRISM：在模拟具身环境中进行意图驱动的规划与推理
PRISM: : Planning and Reasoning with Intent in Simulated Embodied Environments