← 返回论文列表

保障检索增强生成:攻击、防御与未来方向的分类体系
Securing Retrieval-Augmented Generation: A Taxonomy of Attacks, Defenses, and Future Directions

作者: Yuming Xu, Mingtao Zhang, Zhuohan Ge 等8人
arXiv: 2604.08304v1
分类: cs.CR, cs.AI
📝 论文摘要
检索增强生成(RAG)显著提升了大语言模型(LLM)的能力,但通过引入外部知识访问也带来了新的安全风险。现有研究虽涵盖多种RAG漏洞,却常将LLM固有风险与RAG特有风险混为一谈。本文提出:安全的RAG本质上关乎外部知识访问管道的安全性。我们通过建立操作边界来区分LLM固有缺陷与RAG引入或放大的威胁。基于此视角,我们将RAG工作流抽象为六个阶段,并围绕三个信任边界和四大安全层面组织文献研究——包括检索前知识污染、检索时访问操控、下游上下文利用及知识泄露。通过系统梳理相应攻击方式、防御策略、修复机制与评估基准,我们发现当前防御措施仍主要处于被动应对且零散分布的状态。最后,我们探讨了现有不足,并指出未来应朝着构建覆盖知识访问全生命周期的分层式、边界感知防护体系迈进。

📊 核心分析

🎯 研究动机
该论文旨在解决检索增强生成(Retrieval-Augmented Generation, RAG)系统中因引入外部知识访问而带来的新型安全风险。研究背景是现有研究往往将大型语言模型(Large Language Models, LLMs)的固有风险与RAG系统特有的风险混为一谈,缺乏一个清晰的分析框架来专门界定和应对RAG引入的安全威胁。
🔧 核心方法
论文采用了系统性的分类学(taxonomy)构建与文献综述方法。具体步骤包括: - 提出核心观点:安全RAG的本质在于保障外部知识访问管道(知识访问管道)的安全。 - 建立一个操作边界(operational boundary),以区分LLM固有缺陷与RAG引入或RAG放大的威胁。 - 将RAG工作流程抽象为六个阶段,并围绕三个信任边界(trust boundaries)和四个主要安全面(security surfaces)组织现有文献。这四个安全面包括:检索前知识污染(pre-retrieval knowledge corruption)、检索时访问操纵(retrieval-time access manipulation)、下游上下文利用(downstream context exploitation)和知识泄露(knowledge exfiltration)。 - 系统性地回顾了对应的攻击、防御、修复机制和评估基准(benchmarks)。
💡 核心创新
论文的核心创新点在于提出了一个专门针对RAG系统安全性的、以知识访问管道为中心的分析框架,其独特之处在于: - **概念创新**:首次明确提出“安全RAG的核心是外部知识访问管道的安全”这一根本性观点,并据此建立了清晰的操作边界,将RAG特有的安全威胁与LLM的通用风险有效分离。 - **框架创新**:构建了一个结构化的、分阶段的安全分类学。通过抽象RAG工作流为六个阶段,并识别出三个信任边界和四个核心攻击面,为系统化地理解、分类和应对RAG安全威胁提供了统一的“地图”。 - **视角创新**:从整个知识访问生命周期(knowledge-access lifecycle)的视角审视安全问题,揭示了现有防御措施多为被动和碎片化的现状,从而指明了未来需要分层、边界感知(boundary-aware)的整体防护方向。
🏆 总体贡献
论文对该领域的整体贡献包括: - **理论贡献**:为RAG安全研究领域提供了一个清晰、系统化的概念框架和分类学,统一了零散的研究发现,明确了RAG特有安全问题的研究范围。 - **综述贡献**:对现有攻击、防御、评估工作进行了全面的系统性梳理和总结,帮助研究者和实践者快速把握领域现状。 - **洞察贡献**:批判性地指出当前防御措施的局限(被动、碎片化),并基于提出的框架,指明了未来研究方向,即朝着覆盖整个知识访问生命周期的、分层的、边界感知的防护体系发展,对推动该领域向更主动、更系统的安全解决方案迈进具有指导意义。