← 返回论文列表

像素间的秘密:针对文生图模型的铭文式越狱攻击
Reading Between the Pixels: An Inscriptive Jailbreak Attack on Text-to-Image Models

作者: Zonghao Ying, Haowen Dai, Lianyu Hu 等8人
arXiv: 2604.05853v1
分类: cs.CV
📝 论文摘要
现代文生图模型现已能够生成清晰可辨的段落级文本,这催生了一类全新的滥用风险。我们识别并形式化定义了"铭文越狱"攻击——攻击者通过诱导文生图系统,在视觉无害的场景中嵌入包含有害文本内容(如伪造文件)的图像。与传统引发视觉不良内容的描绘性越狱不同,铭文攻击直接利用文本渲染能力本身作为武器。由于现有越狱技术专为粗粒度视觉操控设计,它们在保持字符级保真度的同时难以绕过多层安全过滤器。为揭示此漏洞,我们提出Etch黑盒攻击框架,将对抗性提示分解为三个功能正交的层级:语义伪装层、视觉空间锚定层与字体编码层。这种分解将完整提示空间的联合优化转化为可处理的子问题,通过零阶循环进行迭代优化。在此过程中,视觉语言模型对每张生成图像进行批判性评估,将失败定位至特定层级,并给出针对性修正方案。在2个基准测试中对7个模型的广泛评估表明,Etch平均攻击成功率高达65.57%(峰值达91.00%),显著超越现有基线方法。我们的研究结果揭示了当前文生图安全对齐机制的关键盲区,并凸显了构建字体感知多模态防御机制的紧迫性。

📊 核心分析

🎯 研究动机
该论文旨在解决文本到图像(text-to-image, T2I)模型的一个新型安全漏洞:**铭文式越狱(inscriptive jailbreak)**。研究背景是现代T2I模型已能生成包含段落长度、清晰可读文本的图像,这催生了一种全新的滥用方式,即攻击者可以诱导模型在看似良性的视觉场景中,生成嵌入有害文本内容(如欺诈性文件)的图像。这与传统旨在生成视觉上违规图像的**描绘式越狱(depictive jailbreak)** 有本质区别。现有越狱技术难以在绕过模型多阶段安全过滤器的同时,保持字符级别的文本保真度。
🔧 核心方法
论文提出了名为 **Etch** 的黑盒攻击框架。其核心方法是将对抗性提示(prompt)分解为三个功能正交的层: - **语义伪装层(Semantic Camouflage)**:负责使整体提示在语义上显得无害。 - **视觉空间锚定层(Visual-Spatial Anchoring)**:负责控制有害文本在图像中的位置和视觉背景。 - **字体编码层(Typographic Encoding)**:负责精确控制每个字符的渲染,确保文本可读。 该方法将整个提示空间的联合优化问题,分解为可处理的子问题,并通过一个**零阶循环(zero-order loop)** 进行迭代优化。在此过程中,一个**视觉语言模型(Vision-Language Model, VLM)** 对生成的图像进行评判,将失败定位到特定层,并指导进行有针对性的修订。
💡 核心创新
论文的核心创新点在于: 1. **首次形式化并系统性地提出了“铭文式越狱(inscriptive jailbreak)”这一新型攻击范式**,将攻击目标从生成违规视觉内容,转向滥用模型的文本渲染能力来嵌入有害文本。 2. **提出了正交分层分解的攻击框架(Etch)**,将复杂的对抗性提示生成问题,解耦为语义、视觉、字体三个相对独立的优化子任务,显著降低了搜索难度并提高了攻击的精确性和成功率。 3. **引入了基于视觉语言模型(VLM)的迭代反馈与定位机制**,实现了对攻击失败原因(具体是哪个“层”出了问题)的自动化诊断和针对性优化,使攻击过程更加高效和自动化。
🏆 总体贡献
论文对该领域的整体贡献包括: 1. **揭示并实证了一个关键的安全盲点**:系统地暴露了当前T2I模型安全对齐机制在防范基于文本渲染的攻击方面存在严重不足,现有防御主要关注视觉内容,而缺乏对**字体排版(typography)** 层面的考量。 2. **提出了一个高效且强大的攻击基准(Etch)**:在7个模型和2个基准上的广泛评估表明,Etch的平均攻击成功率高达65.57%(峰值91.00%),显著优于现有基线方法,为后续防御研究设定了新的挑战标准。 3. **指明了新的防御方向**:论文结论强调了开发**具备字体感知能力的多模态防御机制(typography-aware defense multimodal mechanisms)** 的紧迫性,为未来T2I模型的安全研究提供了明确且重要的方向指引。