该论文旨在解决大型语言模型(large language models)作为机器人系统规划器(planner)时的安全问题。研究背景是:虽然大型语言模型越来越多地被用于机器人任务规划,但其规划的安全性尚未得到系统评估,这构成了实际部署的关键障碍。
论文引入了DESPITE基准测试(benchmark),这是一个包含12,279个任务的确定性验证(deterministic validation)数据集,涵盖物理危险(physical dangers)和规范危险(normative dangers)。该方法系统地评估了23个模型(包括18个参数量从3B到671B的开源模型和5个专有模型)的规划能力(planning ability)和安全意识(safety awareness)。
论文的核心创新点在于:
- 首次系统地揭示了大型语言模型规划能力与安全意识之间的“乘性关系(multiplicative relationship)”,即模型主要通过提升规划能力(而非危险规避能力)来安全地完成任务。
- 发现模型规模扩大能显著提升规划能力(从0.4%到99.3%),但安全意识却相对停滞(在38-57%之间),这暴露了当前模型安全性的根本瓶颈。
- 识别出具有推理能力(reasoning)的专有模型在安全意识上表现突出(71-81%),而开源推理模型和非推理专有模型则表现不佳(低于57%),这为安全规划器的设计指明了方向。
论文对该领域的整体贡献是:
- 构建了首个用于系统评估语言模型规划安全性的综合性基准DESPITE。
- 通过大规模实验证明,即使规划能力近乎完美的模型也可能产生大量危险计划,从而揭示了当前将语言模型作为规划器部署的系统性安全风险(systematic safety risks)。
- 明确指出,随着前沿模型(frontier models)的规划能力趋于饱和,提升安全意识已成为机器人系统中部署语言模型规划器的核心挑战,为未来研究提供了清晰的重点。