CritBench：评估大型语言模型在IEC 61850数字化变电站环境中的网络安全能力框架

📝 论文摘要

大型语言模型（LLMs）的发展引发了对其在网络安全领域双重用途潜力的担忧。现有评估框架绝大多数聚焦于信息技术（IT）环境，未能充分考量操作技术（OT）领域的特定约束与专业协议。为填补这一空白，我们提出CritBench——一个专为评估IEC 61850数字化变电站环境中LLM代理网络安全能力而设计的新型框架。我们在涵盖静态配置分析、网络流量侦察和实时虚拟机交互三大领域的81项专业任务上，对包括OpenAI的GPT-5系列及开源权重模型在内的五种前沿模型进行了系统评估。为促进工业协议交互，我们开发了领域专用工具脚手架。实证结果表明：代理能可靠执行静态结构化文件分析和单工具网络枚举，但在动态任务上表现欠佳。尽管当前模型展现出对IEC 61850标准术语的显性内化知识，但在缺乏专用工具时，仍难以满足操作系统所需的持续序列推理与状态追踪要求。通过配备我们研发的领域专用工具脚手架，可显著缓解此类操作瓶颈。代码与评估脚本已开源：https://github.com/GKeppler/CritBench

🎯 研究动机

该论文旨在解决大型语言模型(LLM)在网络安全领域评估框架的局限性。研究背景是： - 现有评估框架主要关注信息技术(IT)环境，未能充分考虑运行技术(OT)环境的独特约束和专用协议。 - 随着LLM的发展，其在网络安全领域的双重用途潜力引发担忧，特别是在关键基础设施（如IEC 61850数字变电站）环境中。

🔧 核心方法

论文采用以下具体方法： - 提出了名为CritBench的新型评估框架，专门用于在IEC 61850数字变电站环境中评估LLM代理的网络安全能力。 - 评估了五种最先进的模型（包括OpenAI的GPT系列和开源模型）。 - 构建了包含81个领域特定任务的语料库，涵盖静态配置分析、网络流量侦察和实时虚拟机交互。 - 开发了一个领域特定的工具脚手架，以促进工业协议交互。

💡 核心创新

论文的核心创新点在于： - **首创针对OT环境的LLM网络安全评估框架**：与现有主要针对IT环境的框架不同，CritBench是首个专门为IEC 61850数字变电站等OT环境设计的评估框架。 - **引入领域特定的工具脚手架**：开发了专用工具集，显著缓解了LLM代理与工业协议交互的操作瓶颈，这是现有工作所缺乏的。 - **系统性的实证评估设计**：通过涵盖静态分析、动态交互等多维度的81个领域特定任务，全面评估了LLM在OT网络安全场景中的实际能力与局限。

🏆 总体贡献

论文对该领域的整体贡献包括： - 填补了LLM在运行技术(OT)网络安全能力评估方面的研究空白，将评估重点从IT扩展到关键基础设施领域。 - 提供了首个公开可用的、针对IEC 61850数字变电站环境的LLM网络安全评估基准和工具集（代码已开源）。 - 通过实证研究揭示了当前最先进LLM在OT环境中的能力边界：擅长静态分析和单工具枚举，但在需要持续序列推理和状态跟踪的动态任务上表现不佳，而领域特定工具能有效提升其操作能力。 - 为未来开发更安全、可靠的LLM在工业控制系统中的应用提供了重要的评估基准和方法论指导。

CritBench：评估大型语言模型在IEC 61850数字化变电站环境中的网络安全能力框架
CritBench: A Framework for Evaluating Cybersecurity Capabilities of Large Language Models in IEC 61850 Digital Substation Environments

📊 核心分析

CritBench：评估大型语言模型在IEC 61850数字化变电站环境中的网络安全能力框架 CritBench: A Framework for Evaluating Cybersecurity Capabilities of Large Language Models in IEC 61850 Digital Substation Environments

📊 核心分析

CritBench：评估大型语言模型在IEC 61850数字化变电站环境中的网络安全能力框架
CritBench: A Framework for Evaluating Cybersecurity Capabilities of Large Language Models in IEC 61850 Digital Substation Environments