← 返回论文列表

CritBench:评估大型语言模型在IEC 61850数字化变电站环境中的网络安全能力框架
CritBench: A Framework for Evaluating Cybersecurity Capabilities of Large Language Models in IEC 61850 Digital Substation Environments

作者: Gustav Keppler, Moritz Gstür, Veit Hagenmeyer
arXiv: 2604.06019v1
分类: cs.CR, cs.AI
📝 论文摘要
大型语言模型(LLMs)的发展引发了对其在网络安全领域双重用途潜力的担忧。现有评估框架绝大多数聚焦于信息技术(IT)环境,未能充分考量操作技术(OT)领域的特定约束与专业协议。为填补这一空白,我们提出CritBench——一个专为评估IEC 61850数字化变电站环境中LLM代理网络安全能力而设计的新型框架。我们在涵盖静态配置分析、网络流量侦察和实时虚拟机交互三大领域的81项专业任务上,对包括OpenAI的GPT-5系列及开源权重模型在内的五种前沿模型进行了系统评估。为促进工业协议交互,我们开发了领域专用工具脚手架。实证结果表明:代理能可靠执行静态结构化文件分析和单工具网络枚举,但在动态任务上表现欠佳。尽管当前模型展现出对IEC 61850标准术语的显性内化知识,但在缺乏专用工具时,仍难以满足操作系统所需的持续序列推理与状态追踪要求。通过配备我们研发的领域专用工具脚手架,可显著缓解此类操作瓶颈。代码与评估脚本已开源:https://github.com/GKeppler/CritBench

📊 核心分析

🎯 研究动机
该论文旨在解决大型语言模型(LLM)在网络安全领域评估框架的局限性。研究背景是: - 现有评估框架主要关注信息技术(IT)环境,未能充分考虑运行技术(OT)环境的独特约束和专用协议。 - 随着LLM的发展,其在网络安全领域的双重用途潜力引发担忧,特别是在关键基础设施(如IEC 61850数字变电站)环境中。
🔧 核心方法
论文采用以下具体方法: - 提出了名为CritBench的新型评估框架,专门用于在IEC 61850数字变电站环境中评估LLM代理的网络安全能力。 - 评估了五种最先进的模型(包括OpenAI的GPT系列和开源模型)。 - 构建了包含81个领域特定任务的语料库,涵盖静态配置分析、网络流量侦察和实时虚拟机交互。 - 开发了一个领域特定的工具脚手架,以促进工业协议交互。
💡 核心创新
论文的核心创新点在于: - **首创针对OT环境的LLM网络安全评估框架**:与现有主要针对IT环境的框架不同,CritBench是首个专门为IEC 61850数字变电站等OT环境设计的评估框架。 - **引入领域特定的工具脚手架**:开发了专用工具集,显著缓解了LLM代理与工业协议交互的操作瓶颈,这是现有工作所缺乏的。 - **系统性的实证评估设计**:通过涵盖静态分析、动态交互等多维度的81个领域特定任务,全面评估了LLM在OT网络安全场景中的实际能力与局限。
🏆 总体贡献
论文对该领域的整体贡献包括: - 填补了LLM在运行技术(OT)网络安全能力评估方面的研究空白,将评估重点从IT扩展到关键基础设施领域。 - 提供了首个公开可用的、针对IEC 61850数字变电站环境的LLM网络安全评估基准和工具集(代码已开源)。 - 通过实证研究揭示了当前最先进LLM在OT环境中的能力边界:擅长静态分析和单工具枚举,但在需要持续序列推理和状态跟踪的动态任务上表现不佳,而领域特定工具能有效提升其操作能力。 - 为未来开发更安全、可靠的LLM在工业控制系统中的应用提供了重要的评估基准和方法论指导。