- 现有**具身智能(embodied agent)** 基准仅报告单一成功率,无法诊断失败原因,如误识别物体、遗忘子目标或动作排序不当
- 研究背景:基于LLM的具身代理在家庭任务中经常失败,但缺乏能够定位认知模块缺陷的评估工具
- 需要一种**诊断性(diagnostic)** 基准,能够解析失败背后的具体能力层,而不仅判断成功与否
- 提出**PRISM诊断基准**,包含300个人工校验任务,构建在5个**真实感多房间公寓(photorealistic multi-room apartments)** 环境中(每套4-8个房间)
- 将任务系统地分为三个**能力层级(capability tiers)**:基础能力(Basic Ability)、推理能力(Reasoning Ability)、长程能力(Long-horizon Ability),分别隔离感知-动作映射、隐性意图解析和持续多步协调
- 提供**智能体无关的可执行动作API(agent-agnostic executable action API)**,支持LLM代理、VLM代理、符号规划器、强化学习策略及混合系统在统一协议下进行端到端评估
- 可选探针(probes)支持感知、记忆和规划模块的独立控制,允许按需进行组件级分析
- **诊断性框架**:首次将**能力缺陷定位(capability failure attribution)** 作为核心设计目标,而非仅报告成功率
- **三层能力隔离**:通过精心设计的任务层级,将不同认知模块的故障解耦,可独立分析基本感知、隐性意图和长程协调
- **模块化探针机制**:允许任意替换或绕过感知、记忆和规划探针,实现**受控组件级分析(controlled component-level analysis)**
- **发现能力悬崖**:实验揭示轻量级模型在长程协调中成功率低至20.0%且消耗更多token,表现出**补偿性过度推理(compensatory over-reasoning)** 而非真正规划能力
- 为具身智能领域提供了一个**诊断性基准(diagnostic benchmark)** 新范式,将评估从“成功/失败”转向“哪个能力层失败”
- 通过三个能力层级和模块化探针设计,使研究者能精确定位**感知-行动接地(perception-to-action grounding)**、**隐性意图解析(implicit intent resolution)** 和**长程协调(long-horizon coordination)** 的瓶颈
- 在7个当代LLM上进行了系统性实验,揭示了**隐性意图解析是普遍瓶颈**,并量化了不同模型家族在长程任务中的巨大能力差距
- 开源环境、任务和API(项目页面提供),促进社区复现与后续研究