像素间的秘密：针对文生图模型的铭文式越狱攻击

📝 论文摘要

现代文生图模型现已能够生成清晰可辨的段落级文本，这催生了一类全新的滥用风险。我们识别并形式化定义了"铭文越狱"攻击——攻击者通过诱导文生图系统，在视觉无害的场景中嵌入包含有害文本内容（如伪造文件）的图像。与传统引发视觉不良内容的描绘性越狱不同，铭文攻击直接利用文本渲染能力本身作为武器。由于现有越狱技术专为粗粒度视觉操控设计，它们在保持字符级保真度的同时难以绕过多层安全过滤器。为揭示此漏洞，我们提出Etch黑盒攻击框架，将对抗性提示分解为三个功能正交的层级：语义伪装层、视觉空间锚定层与字体编码层。这种分解将完整提示空间的联合优化转化为可处理的子问题，通过零阶循环进行迭代优化。在此过程中，视觉语言模型对每张生成图像进行批判性评估，将失败定位至特定层级，并给出针对性修正方案。在2个基准测试中对7个模型的广泛评估表明，Etch平均攻击成功率高达65.57%（峰值达91.00%），显著超越现有基线方法。我们的研究结果揭示了当前文生图安全对齐机制的关键盲区，并凸显了构建字体感知多模态防御机制的紧迫性。

🎯 研究动机

该论文旨在解决文本到图像(text-to-image, T2I)模型的一个新型安全漏洞：**铭文式越狱(inscriptive jailbreak)**。研究背景是现代T2I模型已能生成包含段落长度、清晰可读文本的图像，这催生了一种全新的滥用方式，即攻击者可以诱导模型在看似良性的视觉场景中，生成嵌入有害文本内容（如欺诈性文件）的图像。这与传统旨在生成视觉上违规图像的**描绘式越狱(depictive jailbreak)** 有本质区别。现有越狱技术难以在绕过模型多阶段安全过滤器的同时，保持字符级别的文本保真度。

🔧 核心方法

论文提出了名为 **Etch** 的黑盒攻击框架。其核心方法是将对抗性提示(prompt)分解为三个功能正交的层： - **语义伪装层(Semantic Camouflage)**：负责使整体提示在语义上显得无害。 - **视觉空间锚定层(Visual-Spatial Anchoring)**：负责控制有害文本在图像中的位置和视觉背景。 - **字体编码层(Typographic Encoding)**：负责精确控制每个字符的渲染，确保文本可读。该方法将整个提示空间的联合优化问题，分解为可处理的子问题，并通过一个**零阶循环(zero-order loop)** 进行迭代优化。在此过程中，一个**视觉语言模型(Vision-Language Model, VLM)** 对生成的图像进行评判，将失败定位到特定层，并指导进行有针对性的修订。

💡 核心创新

论文的核心创新点在于： 1. **首次形式化并系统性地提出了“铭文式越狱(inscriptive jailbreak)”这一新型攻击范式**，将攻击目标从生成违规视觉内容，转向滥用模型的文本渲染能力来嵌入有害文本。 2. **提出了正交分层分解的攻击框架(Etch)**，将复杂的对抗性提示生成问题，解耦为语义、视觉、字体三个相对独立的优化子任务，显著降低了搜索难度并提高了攻击的精确性和成功率。 3. **引入了基于视觉语言模型(VLM)的迭代反馈与定位机制**，实现了对攻击失败原因（具体是哪个“层”出了问题）的自动化诊断和针对性优化，使攻击过程更加高效和自动化。

🏆 总体贡献

论文对该领域的整体贡献包括： 1. **揭示并实证了一个关键的安全盲点**：系统地暴露了当前T2I模型安全对齐机制在防范基于文本渲染的攻击方面存在严重不足，现有防御主要关注视觉内容，而缺乏对**字体排版(typography)** 层面的考量。 2. **提出了一个高效且强大的攻击基准(Etch)**：在7个模型和2个基准上的广泛评估表明，Etch的平均攻击成功率高达65.57%（峰值91.00%），显著优于现有基线方法，为后续防御研究设定了新的挑战标准。 3. **指明了新的防御方向**：论文结论强调了开发**具备字体感知能力的多模态防御机制(typography-aware defense multimodal mechanisms)** 的紧迫性，为未来T2I模型的安全研究提供了明确且重要的方向指引。

像素间的秘密：针对文生图模型的铭文式越狱攻击
Reading Between the Pixels: An Inscriptive Jailbreak Attack on Text-to-Image Models

📊 核心分析

像素间的秘密：针对文生图模型的铭文式越狱攻击 Reading Between the Pixels: An Inscriptive Jailbreak Attack on Text-to-Image Models

📊 核心分析

像素间的秘密：针对文生图模型的铭文式越狱攻击
Reading Between the Pixels: An Inscriptive Jailbreak Attack on Text-to-Image Models