非你所求：家庭机器人操作中的字体攻击

📝 论文摘要

开放词汇具身智能体日益依赖CLIP等视觉语言模型进行物体感知和任务基础。然而，这种实现灵活性的共享嵌入空间引入了一种结构性的排版攻击脆弱性——物理场景中的打印文本会从语义上覆盖视觉判断。虽然先前的工作已在静态二维基准和三维导航任务中量化了该威胁，但其对家庭机器人操作完整"感知-规划-执行"流水线的影响仍未得到探究。本研究基于HomeRobot基准在Habitat仿真环境中评估了排版攻击。我们引入了一种解耦感知架构，使冻结的CLIP编码器暴露于对抗性贴纸，同时通过DETIC保持几何基础。在由59个可归因任务构成的受控评估池中，在无视角优化且存在遮挡的情况下，该攻击实现了67.8%的整体攻击成功率，在完全成功的任务中达到70.0%。关键的是，我们发现感知错误会通过持久化三维语义地图传播，导致"动力学故障"——定义为由对抗性污染语义状态驱动的错误物体物理抓取与搬运。在这些案例中，机器人实际抓取并运送错误物体至目标收纳容器。这些结果证实，排版误分类对模块化操作流水线的安全性构成了真实、可测量且具有物理后果的威胁，而先前的排版攻击研究对此尚未涉及。

🎯 研究动机

- 研究背景：开放词汇具身智能代理日益依赖**视觉-语言模型(vision-language model)** 如CLIP进行物体感知和任务基础，但其共享嵌入空间对**文字攻击(typographic attacks)** 存在结构性脆弱性 - 现有工作仅在静态2D基准和3D导航任务中量化了文字攻击的威胁，尚未研究其对完整家庭机器人操控的**感知-规划-行动(Sense-Plan-Act)** 流水线的影响 - 需要评估文字攻击在真实物理机器人操控场景中是否会产生可度量的、物理上可执行的故障行为

🔧 核心方法

- 在基于**Habitat** 模拟器的**HomeRobot** 基准中进行评估，构建了59个可归因的episodes作为受控测试池 - 提出一个**解耦感知架构(decoupled perception architecture)**，该架构暴露一个冻结的**CLIP编码器** 以接受对抗性贴纸，同时通过**DETIC** 保持几何定位 - 攻击设置：在不受控的视角和遮挡条件下，不对感知进行优化，直接评估攻击效果

💡 核心创新

- **首次** 将文字攻击威胁引入完整的家庭机器人操控流水线，评估了从感知到物理执行的全链路影响 - 发现感知误差会通过持久**3D语义地图(3D semantic map)** 传播，产生**运动失败(kinetic failures)**，即机器人物理抓取并运送错误物体到目标容器 - 证明了文字攻击是一种**真实、可测量且物理上可造成后果** 的威胁，超越了先前研究仅停留在感知误分类层面的分析

🏆 总体贡献

- 揭示了**文字误分类(typographic misclassification)** 对模块化操控流水线安全的严重威胁，填补了先前文字攻击研究未涉及物理执行后果的空白 - 在标准基准上量化了攻击成功率（整体ASR 67.8%，完全成功episodes中达70.0%），为后续防御研究提供了基线 - 建立了一种可复现的评估框架（Habitat+HomeRobot+解耦架构），推动了具身AI安全性领域的研究

非你所求：家庭机器人操作中的字体攻击
Not What You Asked For: Typographic Attacks in Household Robot Manipulation

📊 核心分析

非你所求：家庭机器人操作中的字体攻击 Not What You Asked For: Typographic Attacks in Household Robot Manipulation

📊 核心分析

非你所求：家庭机器人操作中的字体攻击
Not What You Asked For: Typographic Attacks in Household Robot Manipulation