← 返回论文列表

注意力聚焦下的偏好重定向:针对计算机使用代理的攻击
Preference Redirection via Attention Concentration: An Attack on Computer Use Agents

作者: Dominik Seip, Matthias Hein
arXiv: 2604.08005v1
分类: cs.LG
📝 论文摘要
多模态基础模型的进步推动了计算机使用代理(CUAs)的发展,使其能够自主与图形用户界面环境交互。由于CUAs不受特定工具限制,它们能够自动化更复杂的代理任务,但同时也带来了新的安全漏洞。以往研究多集中于语言模态,而视觉模态的脆弱性尚未得到充分关注。本文提出一种名为PRAC的新型攻击方法,与以往直接针对视觉语言模型输出的攻击不同,该方法通过将模型注意力重定向至隐蔽的对抗性补丁,从而操控其内部偏好。我们证明,PRAC能够在电商平台上操纵CUA的选择过程,使其指向特定目标商品。虽然攻击构建需要白盒模型访问权限,但实验表明该攻击可泛化至同一模型的微调版本。鉴于多家公司基于开源权重模型开发定制化CUAs,这种攻击构成了严峻的安全威胁。

📊 核心分析

🎯 研究动机
该论文旨在解决计算机使用代理(Computer Use Agents, CUAs)在视觉模态上的安全漏洞问题。研究背景是:随着多模态基础模型(multimodal foundation models)的进步,CUAs能够自主与图形用户界面(GUI)环境交互,这虽然能自动化更复杂的任务,但也带来了新的安全风险。现有研究主要集中在语言模态的攻击,而视觉模态的脆弱性尚未得到充分关注。
🔧 核心方法
论文提出了名为PRAC(偏好重定向注意力集中攻击)的新型攻击方法,其核心是: - 与以往直接针对视觉语言模型(VLM)输出的攻击不同,PRAC通过操纵模型内部偏好来实施攻击。 - 具体技术是:将一个隐蔽的对抗性补丁(adversarial patch)嵌入到界面中,通过重定向模型的注意力(attention)使其集中在该补丁上,从而操纵CUA的选择过程。 - 攻击创建需要白盒(white-box)访问模型,但实验表明该攻击能泛化到同一模型的微调(fine-tuned)版本。
💡 核心创新
论文的核心创新点在于: - **攻击范式的转变**:从传统的直接输出操纵转向更隐蔽的“内部偏好重定向”攻击,通过注意力机制(attention mechanism)间接影响模型决策。 - **视觉模态的针对性攻击**:首次系统性地针对CUAs的视觉理解模块进行攻击,填补了该领域的研究空白。 - **可迁移性威胁**:证明了攻击对基于同一开源权重模型构建的不同CUAs具有泛化能力,这意味着即使模型经过特定任务微调,攻击仍然有效,放大了实际威胁。
🏆 总体贡献
论文对该领域的整体贡献包括: - 揭示了CUAs在视觉模态上存在严重且可迁移的安全漏洞,为社区敲响了警钟。 - 提出并验证了一种新型的、基于注意力操纵的对抗攻击范式,为后续防御研究提供了新的攻击案例和基准。 - 通过在线购物平台的案例研究,具体展示了攻击如何成功操纵CUA选择特定目标商品,证明了攻击的现实危害性。 - 强调了在开发基于开源模型的CUAs时,必须考虑此类可迁移攻击的威胁,推动了模型安全评估标准的发展。