该论文旨在解决大型语言模型(LLM)在网络安全领域评估框架的局限性。研究背景是:
- 现有评估框架主要关注信息技术(IT)环境,未能充分考虑运行技术(OT)环境的独特约束和专用协议。
- 随着LLM的发展,其在网络安全领域的双重用途潜力引发担忧,特别是在关键基础设施(如IEC 61850数字变电站)环境中。
论文采用以下具体方法:
- 提出了名为CritBench的新型评估框架,专门用于在IEC 61850数字变电站环境中评估LLM代理的网络安全能力。
- 评估了五种最先进的模型(包括OpenAI的GPT系列和开源模型)。
- 构建了包含81个领域特定任务的语料库,涵盖静态配置分析、网络流量侦察和实时虚拟机交互。
- 开发了一个领域特定的工具脚手架,以促进工业协议交互。
论文的核心创新点在于:
- **首创针对OT环境的LLM网络安全评估框架**:与现有主要针对IT环境的框架不同,CritBench是首个专门为IEC 61850数字变电站等OT环境设计的评估框架。
- **引入领域特定的工具脚手架**:开发了专用工具集,显著缓解了LLM代理与工业协议交互的操作瓶颈,这是现有工作所缺乏的。
- **系统性的实证评估设计**:通过涵盖静态分析、动态交互等多维度的81个领域特定任务,全面评估了LLM在OT网络安全场景中的实际能力与局限。
论文对该领域的整体贡献包括:
- 填补了LLM在运行技术(OT)网络安全能力评估方面的研究空白,将评估重点从IT扩展到关键基础设施领域。
- 提供了首个公开可用的、针对IEC 61850数字变电站环境的LLM网络安全评估基准和工具集(代码已开源)。
- 通过实证研究揭示了当前最先进LLM在OT环境中的能力边界:擅长静态分析和单工具枚举,但在需要持续序列推理和状态跟踪的动态任务上表现不佳,而领域特定工具能有效提升其操作能力。
- 为未来开发更安全、可靠的LLM在工业控制系统中的应用提供了重要的评估基准和方法论指导。