当前多模态大语言模型(Multimodal LLMs)越来越多地被用作3D环境中自主智能体(autonomous agents)的感知主干(perceptual backbone)。然而,现有基准测试(benchmarks)无法充分评估智能体在以下关键能力上的表现:
• 感知快速的状态变化。
• 将动作归因于正确的实体。
• 从第一人称视角(first-person perspective)推理并发(concurrent)的多智能体行为。
因此,需要一个专门评估以智能体为中心(agentic-centric)的感知与推理能力的基准。
论文提出了GameplayQA基准测试框架,其核心构建方法包括:
• **数据来源与标注**:使用多玩家3D游戏视频,以高密度(每秒1.22个标签)进行标注。
• **标注结构**:标注是时间同步(time-synced)且并发的,内容涵盖状态(states)、动作(actions)和事件(events)。
• **三元分解系统(Triadic System)**:标注围绕“自我(Self)”、“其他智能体(Other Agents)”和“世界(World)”这三个维度进行结构化,这是多智能体环境(multi-agent environments)的自然分解方式。
• **问题生成**:从标注中提炼出2.4K个诊断性问答对(QA pairs),并按三个认知复杂度(cognitive complexity)级别组织。
• **干扰项设计**:提供了一个结构化的干扰项分类法(distractor taxonomy),用于对模型幻觉(hallucinate)进行细粒度分析。
论文的核心创新点在于构建了一个专门针对**决策密集(decision-dense)**、**第一人称视角同步(POV-synced)** 的**多视频(multi-video)** 理解基准,以评估3D虚拟智能体(3D virtual agents)的感知与推理能力。其独特之处在于:
• **评估视角与内容**:首次从第一人称视角,专注于评估智能体在快速变化、多智能体并发交互的3D环境中的感知与推理,弥补了现有基准的空白。
• **三元标注框架**:提出了“自我-其他智能体-世界”的三元分解标注系统,为理解和评估多智能体交互提供了结构化、自然的框架。
• **诊断性评估设计**:不仅提供QA对,还设计了结构化的干扰项分类法,能够对模型失败原因(如时间定位、跨视频关联、角色归因错误)进行精细诊断,而不仅仅是给出分数。
论文对该领域的整体贡献包括:
• **提出了新的基准测试**:推出了GameplayQA,一个用于评估以智能体为中心的感知和视频理解能力的新基准。
• **揭示了模型能力差距**:通过对前沿多模态大语言模型(MLLMs)的评估,揭示了其在时间定位(temporal grounding)、跨视频关联(cross-video grounding)、智能体角色归因(agent-role attribution)和处理游戏决策密度(decision density)方面与人类表现存在显著差距。
• **促进了交叉领域研究**:该基准有望激发并推动具身人工智能(embodied AI)、智能体感知(agentic perception)和世界建模(world modeling)交叉领域的未来研究。