该论文旨在解决空间推理能力评估中的关键问题:现有基准测试通常在一次性(one-shot)设置下评估模型,要求模型在单次响应中生成完整解决方案,这与人类在交互环境中逐步解决问题的过程不符。研究背景是空间推理在导航和机器人技术中的核心地位,但准确衡量模型在此类任务上的能力仍然困难。
论文引入了Spatial-Gym,这是一个基于Gymnasium的环境,通过将二维网格(2D-grid)谜题中的路径寻找(pathfinding)作为顺序决策任务来隔离空间约束推理,并支持可选回溯(backtracking)。
- 在500个回合(episodes)中评估了八个模型,设置了三种评估模式:一次性(one-shot)、逐步(step-by-step)和带回溯的逐步(step-by-step with backtracking)。
- 将模型性能与人类基线、随机基线和A*算法基线进行比较。
- 分析了不同评估设置对模型性能的影响,并探讨了视觉模型接收空间环境图像、扩展思维链推理(chain-of-thought reasoning)等因素的影响。
论文的核心创新点在于:
1. **评估范式的创新**:首次系统性地比较了“一次性”与“逐步”评估设置对模型空间推理能力评测的影响,揭示了现有一次性评估的局限性。
2. **诊断性基准测试框架**:提出的Spatial-Gym环境不仅用于性能排名,更侧重于诊断模型在空间推理中的具体失败模式(如无法根据难度调整推理努力、视觉输入反而损害性能等)。
3. **揭示了模型规划行为的独特缺陷**:发现逐步格式会通过限制全局规划(global planning)而损害强模型性能,而回溯机制仅对弱模型有益,强模型很少使用且无法从中受益。
论文对该领域的整体贡献是:
1. **提供了新的评估工具和洞见**:Spatial-Gym为社区提供了一个可复现、可诊断的基准测试,用于深入分析模型的空间推理与行动能力之间的差距。
2. **挑战了现有评估实践**:实证表明一次性评估可能无法准确反映模型在交互式环境中的真实能力,呼吁评估方法需更贴近实际应用场景。
3. **为未来改进指明了方向**:框架支持通过强化学习(reinforcement learning)等方式改进空间推理,并明确了模型需改进的关键方面(如根据任务难度动态调整推理、整合视觉与符号推理等)。