游戏问答：面向三维虚拟代理决策密集型视点同步多视频理解的基准测试框架

📝 论文摘要

多模态大语言模型正日益被用作从机器人到虚拟世界等三维环境中自主智能体的感知主干。这些应用要求智能体能够感知快速的状态变化、将行动归因于正确的实体，并从第一人称视角推理并发多智能体行为——这些能力是现有基准测试未能充分评估的。我们推出GameplayQA框架，通过视频理解来评估以智能体为中心的感知与推理能力。具体而言，我们对多人三维游戏视频进行了密集标注（每秒1.22个标签），以时间同步的并发字幕形式记录状态、行动和事件，并围绕"自我-其他智能体-世界"三元体系进行结构化组织，这种分解方式天然适用于多智能体环境。基于这些标注，我们提炼出2400个诊断性问答对，按认知复杂度分为三个层级，并构建了结构化干扰项分类法，可精细分析模型产生幻觉的具体环节。对前沿多模态大语言模型的评估显示，其与人类表现存在显著差距，常见缺陷包括时序与跨视频定位、智能体角色归因，以及对游戏决策密度的处理能力。我们期待GameplayQA能推动具身人工智能、智能体感知与世界建模交叉领域的未来研究。

🎯 研究动机

当前多模态大语言模型(Multimodal LLMs)越来越多地被用作3D环境中自主智能体(autonomous agents)的感知主干(perceptual backbone)。然而，现有基准测试(benchmarks)无法充分评估智能体在以下关键能力上的表现： • 感知快速的状态变化。 • 将动作归因于正确的实体。 • 从第一人称视角(first-person perspective)推理并发(concurrent)的多智能体行为。因此，需要一个专门评估以智能体为中心(agentic-centric)的感知与推理能力的基准。

🔧 核心方法

论文提出了GameplayQA基准测试框架，其核心构建方法包括： • **数据来源与标注**：使用多玩家3D游戏视频，以高密度（每秒1.22个标签）进行标注。 • **标注结构**：标注是时间同步(time-synced)且并发的，内容涵盖状态(states)、动作(actions)和事件(events)。 • **三元分解系统(Triadic System)**：标注围绕“自我(Self)”、“其他智能体(Other Agents)”和“世界(World)”这三个维度进行结构化，这是多智能体环境(multi-agent environments)的自然分解方式。 • **问题生成**：从标注中提炼出2.4K个诊断性问答对(QA pairs)，并按三个认知复杂度(cognitive complexity)级别组织。 • **干扰项设计**：提供了一个结构化的干扰项分类法(distractor taxonomy)，用于对模型幻觉(hallucinate)进行细粒度分析。

💡 核心创新

论文的核心创新点在于构建了一个专门针对**决策密集(decision-dense)**、**第一人称视角同步(POV-synced)** 的**多视频(multi-video)** 理解基准，以评估3D虚拟智能体(3D virtual agents)的感知与推理能力。其独特之处在于： • **评估视角与内容**：首次从第一人称视角，专注于评估智能体在快速变化、多智能体并发交互的3D环境中的感知与推理，弥补了现有基准的空白。 • **三元标注框架**：提出了“自我-其他智能体-世界”的三元分解标注系统，为理解和评估多智能体交互提供了结构化、自然的框架。 • **诊断性评估设计**：不仅提供QA对，还设计了结构化的干扰项分类法，能够对模型失败原因（如时间定位、跨视频关联、角色归因错误）进行精细诊断，而不仅仅是给出分数。

🏆 总体贡献

论文对该领域的整体贡献包括： • **提出了新的基准测试**：推出了GameplayQA，一个用于评估以智能体为中心的感知和视频理解能力的新基准。 • **揭示了模型能力差距**：通过对前沿多模态大语言模型(MLLMs)的评估，揭示了其在时间定位(temporal grounding)、跨视频关联(cross-video grounding)、智能体角色归因(agent-role attribution)和处理游戏决策密度(decision density)方面与人类表现存在显著差距。 • **促进了交叉领域研究**：该基准有望激发并推动具身人工智能(embodied AI)、智能体感知(agentic perception)和世界建模(world modeling)交叉领域的未来研究。

游戏问答：面向三维虚拟代理决策密集型视点同步多视频理解的基准测试框架
GameplayQA: A Benchmarking Framework for Decision-Dense POV-Synced Multi-Video Understanding of 3D Virtual Agents

📊 核心分析

游戏问答：面向三维虚拟代理决策密集型视点同步多视频理解的基准测试框架 GameplayQA: A Benchmarking Framework for Decision-Dense POV-Synced Multi-Video Understanding of 3D Virtual Agents

📊 核心分析

游戏问答：面向三维虚拟代理决策密集型视点同步多视频理解的基准测试框架
GameplayQA: A Benchmarking Framework for Decision-Dense POV-Synced Multi-Video Understanding of 3D Virtual Agents