利用大型语言模型进行具身规划会引入系统性安全风险

📝 论文摘要

大型语言模型正日益被用作机器人系统的规划器，但其规划安全性仍是一个悬而未决的问题。为系统评估安全规划能力，我们提出了DESPITE基准测试集，涵盖物理性与规范性风险的12,279项任务，并配备完全确定性的验证机制。通过对23个模型的测试发现，即使接近完美的规划能力也无法确保安全性：规划能力最佳的模型仅在0.4%的任务中无法生成有效方案，却在28.3%的任务中产生危险规划。在参数量从30亿到6710亿不等的18个开源模型中，规划能力随规模扩大显著提升（0.4%-99.3%），而安全认知水平保持相对平稳（38%-57%）。我们揭示了两者间的乘数关系，表明更大模型主要通过提升规划能力而非增强危险规避能力来实现更安全的任务完成。三个专有推理模型展现出显著更高的安全认知水平（71%-81%），而非推理型专有模型与开源推理模型均低于57%。随着前沿模型的规划能力趋于饱和，提升安全认知水平成为语言模型规划器部署于机器人系统的核心挑战。

🎯 研究动机

该论文旨在解决大型语言模型(large language models)作为机器人系统规划器(planner)时的安全问题。研究背景是：虽然大型语言模型越来越多地被用于机器人任务规划，但其规划的安全性尚未得到系统评估，这构成了实际部署的关键障碍。

🔧 核心方法

论文引入了DESPITE基准测试(benchmark)，这是一个包含12,279个任务的确定性验证(deterministic validation)数据集，涵盖物理危险(physical dangers)和规范危险(normative dangers)。该方法系统地评估了23个模型（包括18个参数量从3B到671B的开源模型和5个专有模型）的规划能力(planning ability)和安全意识(safety awareness)。

💡 核心创新

论文的核心创新点在于： - 首次系统地揭示了大型语言模型规划能力与安全意识之间的“乘性关系(multiplicative relationship)”，即模型主要通过提升规划能力（而非危险规避能力）来安全地完成任务。 - 发现模型规模扩大能显著提升规划能力（从0.4%到99.3%），但安全意识却相对停滞（在38-57%之间），这暴露了当前模型安全性的根本瓶颈。 - 识别出具有推理能力(reasoning)的专有模型在安全意识上表现突出（71-81%），而开源推理模型和非推理专有模型则表现不佳（低于57%），这为安全规划器的设计指明了方向。

🏆 总体贡献

论文对该领域的整体贡献是： - 构建了首个用于系统评估语言模型规划安全性的综合性基准DESPITE。 - 通过大规模实验证明，即使规划能力近乎完美的模型也可能产生大量危险计划，从而揭示了当前将语言模型作为规划器部署的系统性安全风险(systematic safety risks)。 - 明确指出，随着前沿模型(frontier models)的规划能力趋于饱和，提升安全意识已成为机器人系统中部署语言模型规划器的核心挑战，为未来研究提供了清晰的重点。

利用大型语言模型进行具身规划会引入系统性安全风险
Using large language models for embodied planning introduces systematic safety risks

📊 核心分析

利用大型语言模型进行具身规划会引入系统性安全风险 Using large language models for embodied planning introduces systematic safety risks

📊 核心分析

利用大型语言模型进行具身规划会引入系统性安全风险
Using large language models for embodied planning introduces systematic safety risks