揭示LLM增强型搜索引擎抵御黑帽SEO操纵的韧性

Unveiling the Resilience of LLM-Enhanced Search Engines against Black-Hat SEO Manipulation

作者: Pei Chen, Geng Hong, Xinyi Wu 等9人

arXiv: 2603.25500v1

分类: cs.CR, cs.IR

📝 论文摘要

大型语言模型增强搜索引擎的出现，通过将网络级搜索能力与人工智能驱动的摘要功能相结合，彻底改变了信息检索方式。尽管这些系统相较于传统搜索引擎展现出更高的效率，但其在面对成熟的黑帽搜索引擎优化攻击时的安全性影响尚未得到充分探索。本文首次针对LLMSEs的SEO攻击进行了系统性研究。我们选取了十款具有代表性的LLMSE产品（如ChatGPT、Gemini等），并构建了包含1000个真实世界黑帽SEO网站的基准测试集SEO-Bench，用以评估开源与闭源LLMSEs的安全性。实验结果表明，LLMSEs能够拦截超过99.78%的传统SEO攻击，其中检索阶段作为主要过滤层，阻断了绝大多数恶意查询。我们进一步提出并评估了七种LLMSEO攻击策略，证明现有LLMSEs在面对改写查询填充和分段文本等新型攻击时存在脆弱性——相较于基线攻击，这些策略可使内容操纵率提升一倍。本研究首次对LLMSE生态系统进行了深度安全分析，为构建更具韧性的AI驱动搜索系统提供了实践洞见。我们已通过负责任披露机制向主要厂商报告了所发现的安全问题。

📊 核心分析

🎯 研究动机

研究动机： • 大型语言模型增强搜索引擎(LLMSEs)的出现整合了网络搜索与AI摘要能力，但其安全性尚未得到充分评估。 • 该论文旨在解决LLMSEs对黑帽搜索引擎优化(SEO)攻击的抵御能力问题，填补了这一新兴系统安全研究的空白。

🔧 核心方法

核心方法： • 对10个代表性LLMSE产品（如ChatGPT、Gemini）进行了首次系统性研究。 • 构建了SEO-Bench基准测试集，包含1000个真实世界的黑帽SEO网站。 • 评估了开源和闭源LLMSEs的防御能力，并提出了七种LLMSEO攻击策略进行测试。

💡 核心创新

核心创新点： • 首次系统性地研究了针对LLMSEs的SEO攻击，揭示了传统SEO攻击在LLMSEs中99.78%的缓解率主要归功于检索(retrieval)阶段的过滤作用。 • 提出了创新的LLMSEO攻击策略，特别是重写查询填充(rewritten-query stuffing)和分段文本(segmented texts)技术，使操纵率相比基线翻倍。 • 发现了LLMSEs对传统SEO攻击具有强抵抗力，但对专门设计的LLMSEO攻击存在显著脆弱性。

🏆 总体贡献

总体贡献： • 提供了LLMSE生态系统的首次深度安全分析，揭示了其安全特性与漏洞。 • 为构建更具韧性的AI驱动搜索系统提供了实用见解，并已向主要供应商负责任地披露了发现的问题。 • 建立的SEO-Bench基准和攻击策略为后续研究提供了重要工具和方法论基础。