该论文旨在解决计算机使用代理(Computer Use Agents, CUAs)在视觉模态上的安全漏洞问题。研究背景是:随着多模态基础模型(multimodal foundation models)的进步,CUAs能够自主与图形用户界面(GUI)环境交互,这虽然能自动化更复杂的任务,但也带来了新的安全风险。现有研究主要集中在语言模态的攻击,而视觉模态的脆弱性尚未得到充分关注。
论文提出了名为PRAC(偏好重定向注意力集中攻击)的新型攻击方法,其核心是:
- 与以往直接针对视觉语言模型(VLM)输出的攻击不同,PRAC通过操纵模型内部偏好来实施攻击。
- 具体技术是:将一个隐蔽的对抗性补丁(adversarial patch)嵌入到界面中,通过重定向模型的注意力(attention)使其集中在该补丁上,从而操纵CUA的选择过程。
- 攻击创建需要白盒(white-box)访问模型,但实验表明该攻击能泛化到同一模型的微调(fine-tuned)版本。
论文的核心创新点在于:
- **攻击范式的转变**:从传统的直接输出操纵转向更隐蔽的“内部偏好重定向”攻击,通过注意力机制(attention mechanism)间接影响模型决策。
- **视觉模态的针对性攻击**:首次系统性地针对CUAs的视觉理解模块进行攻击,填补了该领域的研究空白。
- **可迁移性威胁**:证明了攻击对基于同一开源权重模型构建的不同CUAs具有泛化能力,这意味着即使模型经过特定任务微调,攻击仍然有效,放大了实际威胁。
论文对该领域的整体贡献包括:
- 揭示了CUAs在视觉模态上存在严重且可迁移的安全漏洞,为社区敲响了警钟。
- 提出并验证了一种新型的、基于注意力操纵的对抗攻击范式,为后续防御研究提供了新的攻击案例和基准。
- 通过在线购物平台的案例研究,具体展示了攻击如何成功操纵CUA选择特定目标商品,证明了攻击的现实危害性。
- 强调了在开发基于开源模型的CUAs时,必须考虑此类可迁移攻击的威胁,推动了模型安全评估标准的发展。