该论文旨在解决文本到图像(text-to-image, T2I)模型的一个新型安全漏洞:**铭文式越狱(inscriptive jailbreak)**。研究背景是现代T2I模型已能生成包含段落长度、清晰可读文本的图像,这催生了一种全新的滥用方式,即攻击者可以诱导模型在看似良性的视觉场景中,生成嵌入有害文本内容(如欺诈性文件)的图像。这与传统旨在生成视觉上违规图像的**描绘式越狱(depictive jailbreak)** 有本质区别。现有越狱技术难以在绕过模型多阶段安全过滤器的同时,保持字符级别的文本保真度。
论文提出了名为 **Etch** 的黑盒攻击框架。其核心方法是将对抗性提示(prompt)分解为三个功能正交的层:
- **语义伪装层(Semantic Camouflage)**:负责使整体提示在语义上显得无害。
- **视觉空间锚定层(Visual-Spatial Anchoring)**:负责控制有害文本在图像中的位置和视觉背景。
- **字体编码层(Typographic Encoding)**:负责精确控制每个字符的渲染,确保文本可读。
该方法将整个提示空间的联合优化问题,分解为可处理的子问题,并通过一个**零阶循环(zero-order loop)** 进行迭代优化。在此过程中,一个**视觉语言模型(Vision-Language Model, VLM)** 对生成的图像进行评判,将失败定位到特定层,并指导进行有针对性的修订。
论文的核心创新点在于:
1. **首次形式化并系统性地提出了“铭文式越狱(inscriptive jailbreak)”这一新型攻击范式**,将攻击目标从生成违规视觉内容,转向滥用模型的文本渲染能力来嵌入有害文本。
2. **提出了正交分层分解的攻击框架(Etch)**,将复杂的对抗性提示生成问题,解耦为语义、视觉、字体三个相对独立的优化子任务,显著降低了搜索难度并提高了攻击的精确性和成功率。
3. **引入了基于视觉语言模型(VLM)的迭代反馈与定位机制**,实现了对攻击失败原因(具体是哪个“层”出了问题)的自动化诊断和针对性优化,使攻击过程更加高效和自动化。
论文对该领域的整体贡献包括:
1. **揭示并实证了一个关键的安全盲点**:系统地暴露了当前T2I模型安全对齐机制在防范基于文本渲染的攻击方面存在严重不足,现有防御主要关注视觉内容,而缺乏对**字体排版(typography)** 层面的考量。
2. **提出了一个高效且强大的攻击基准(Etch)**:在7个模型和2个基准上的广泛评估表明,Etch的平均攻击成功率高达65.57%(峰值91.00%),显著优于现有基线方法,为后续防御研究设定了新的挑战标准。
3. **指明了新的防御方向**:论文结论强调了开发**具备字体感知能力的多模态防御机制(typography-aware defense multimodal mechanisms)** 的紧迫性,为未来T2I模型的安全研究提供了明确且重要的方向指引。