注意力聚焦下的偏好重定向：针对计算机使用代理的攻击

📝 论文摘要

多模态基础模型的进步推动了计算机使用代理（CUAs）的发展，使其能够自主与图形用户界面环境交互。由于CUAs不受特定工具限制，它们能够自动化更复杂的代理任务，但同时也带来了新的安全漏洞。以往研究多集中于语言模态，而视觉模态的脆弱性尚未得到充分关注。本文提出一种名为PRAC的新型攻击方法，与以往直接针对视觉语言模型输出的攻击不同，该方法通过将模型注意力重定向至隐蔽的对抗性补丁，从而操控其内部偏好。我们证明，PRAC能够在电商平台上操纵CUA的选择过程，使其指向特定目标商品。虽然攻击构建需要白盒模型访问权限，但实验表明该攻击可泛化至同一模型的微调版本。鉴于多家公司基于开源权重模型开发定制化CUAs，这种攻击构成了严峻的安全威胁。

🎯 研究动机

该论文旨在解决计算机使用代理(Computer Use Agents, CUAs)在视觉模态上的安全漏洞问题。研究背景是：随着多模态基础模型(multimodal foundation models)的进步，CUAs能够自主与图形用户界面(GUI)环境交互，这虽然能自动化更复杂的任务，但也带来了新的安全风险。现有研究主要集中在语言模态的攻击，而视觉模态的脆弱性尚未得到充分关注。

🔧 核心方法

论文提出了名为PRAC（偏好重定向注意力集中攻击）的新型攻击方法，其核心是： - 与以往直接针对视觉语言模型(VLM)输出的攻击不同，PRAC通过操纵模型内部偏好来实施攻击。 - 具体技术是：将一个隐蔽的对抗性补丁(adversarial patch)嵌入到界面中，通过重定向模型的注意力(attention)使其集中在该补丁上，从而操纵CUA的选择过程。 - 攻击创建需要白盒(white-box)访问模型，但实验表明该攻击能泛化到同一模型的微调(fine-tuned)版本。

💡 核心创新

论文的核心创新点在于： - **攻击范式的转变**：从传统的直接输出操纵转向更隐蔽的“内部偏好重定向”攻击，通过注意力机制(attention mechanism)间接影响模型决策。 - **视觉模态的针对性攻击**：首次系统性地针对CUAs的视觉理解模块进行攻击，填补了该领域的研究空白。 - **可迁移性威胁**：证明了攻击对基于同一开源权重模型构建的不同CUAs具有泛化能力，这意味着即使模型经过特定任务微调，攻击仍然有效，放大了实际威胁。

🏆 总体贡献

论文对该领域的整体贡献包括： - 揭示了CUAs在视觉模态上存在严重且可迁移的安全漏洞，为社区敲响了警钟。 - 提出并验证了一种新型的、基于注意力操纵的对抗攻击范式，为后续防御研究提供了新的攻击案例和基准。 - 通过在线购物平台的案例研究，具体展示了攻击如何成功操纵CUA选择特定目标商品，证明了攻击的现实危害性。 - 强调了在开发基于开源模型的CUAs时，必须考虑此类可迁移攻击的威胁，推动了模型安全评估标准的发展。

注意力聚焦下的偏好重定向：针对计算机使用代理的攻击
Preference Redirection via Attention Concentration: An Attack on Computer Use Agents

📊 核心分析

注意力聚焦下的偏好重定向：针对计算机使用代理的攻击 Preference Redirection via Attention Concentration: An Attack on Computer Use Agents

📊 核心分析

注意力聚焦下的偏好重定向：针对计算机使用代理的攻击
Preference Redirection via Attention Concentration: An Attack on Computer Use Agents