注意空间推理与行动之间的差距！基于空间健身房的智能体逐步评估

📝 论文摘要

空间推理是导航与机器人技术的核心，但衡量模型在此类任务上的能力仍具挑战。现有基准测试通常在单次响应中要求模型生成完整解决方案，这与人类在交互环境中逐步推进的工作方式不同。我们推出Spatial-Gym——一个基于Gymnasium框架的环境，通过将二维网格寻路谜题转化为支持回溯的序列决策任务，实现对空间约束推理能力的独立评估。我们在500个测试场景中对8个模型进行三种模式（单次响应、逐步推进、支持回溯的逐步推进）的评估，并以人类表现、随机策略和A*算法作为基准。性能最佳的GPT-OSS 120B模型解决率为16.0%，较人类基准（98.0%）低82个百分点。逐步推进模式通过规避格式错误使较弱模型提升最多5.4%，却因限制全局规划导致较强模型下降最多5.6%。回溯机制虽能提升任务完成度，但仅对较弱模型提高解决率；较强模型极少回溯且未从中获益。实验揭示三个关键发现：（1）模型无法根据任务难度调整推理强度；（2）接收空间环境图像输入的视觉模型解决率下降73%；（3）在逐步推进场景中，扩展思维链推理仍保持3-5倍于标准推理的准确率优势。Spatial-Gym为诊断模型局限提供了工具，并通过强化学习框架为提升空间推理能力开辟了新路径。

🎯 研究动机

该论文旨在解决空间推理能力评估中的关键问题：现有基准测试通常在一次性(one-shot)设置下评估模型，要求模型在单次响应中生成完整解决方案，这与人类在交互环境中逐步解决问题的过程不符。研究背景是空间推理在导航和机器人技术中的核心地位，但准确衡量模型在此类任务上的能力仍然困难。

🔧 核心方法

论文引入了Spatial-Gym，这是一个基于Gymnasium的环境，通过将二维网格(2D-grid)谜题中的路径寻找(pathfinding)作为顺序决策任务来隔离空间约束推理，并支持可选回溯(backtracking)。 - 在500个回合(episodes)中评估了八个模型，设置了三种评估模式：一次性(one-shot)、逐步(step-by-step)和带回溯的逐步(step-by-step with backtracking)。 - 将模型性能与人类基线、随机基线和A*算法基线进行比较。 - 分析了不同评估设置对模型性能的影响，并探讨了视觉模型接收空间环境图像、扩展思维链推理(chain-of-thought reasoning)等因素的影响。

💡 核心创新

论文的核心创新点在于： 1. **评估范式的创新**：首次系统性地比较了“一次性”与“逐步”评估设置对模型空间推理能力评测的影响，揭示了现有一次性评估的局限性。 2. **诊断性基准测试框架**：提出的Spatial-Gym环境不仅用于性能排名，更侧重于诊断模型在空间推理中的具体失败模式（如无法根据难度调整推理努力、视觉输入反而损害性能等）。 3. **揭示了模型规划行为的独特缺陷**：发现逐步格式会通过限制全局规划(global planning)而损害强模型性能，而回溯机制仅对弱模型有益，强模型很少使用且无法从中受益。

🏆 总体贡献

论文对该领域的整体贡献是： 1. **提供了新的评估工具和洞见**：Spatial-Gym为社区提供了一个可复现、可诊断的基准测试，用于深入分析模型的空间推理与行动能力之间的差距。 2. **挑战了现有评估实践**：实证表明一次性评估可能无法准确反映模型在交互式环境中的真实能力，呼吁评估方法需更贴近实际应用场景。 3. **为未来改进指明了方向**：框架支持通过强化学习(reinforcement learning)等方式改进空间推理，并明确了模型需改进的关键方面（如根据任务难度动态调整推理、整合视觉与符号推理等）。

注意空间推理与行动之间的差距！基于空间健身房的智能体逐步评估
Mind the Gap Between Spatial Reasoning and Acting! Step-by-Step Evaluation of Agents With Spatial-Gym

📊 核心分析

注意空间推理与行动之间的差距！基于空间健身房的智能体逐步评估 Mind the Gap Between Spatial Reasoning and Acting! Step-by-Step Evaluation of Agents With Spatial-Gym

📊 核心分析

注意空间推理与行动之间的差距！基于空间健身房的智能体逐步评估
Mind the Gap Between Spatial Reasoning and Acting! Step-by-Step Evaluation of Agents With Spatial-Gym