计算机使用代理中的人为监督策略比较

Comparing Human Oversight Strategies for Computer-Use Agents

作者: Chaoran Chen, Zhiping Zhang, Zeya Chen 等12人

arXiv: 2604.04918v1

分类: cs.HC

📝 论文摘要

由大型语言模型驱动的计算机使用代理正在将用户从直接操作转向监督协调。然而，现有的监督机制大多作为孤立的界面功能进行研究，使得更广泛的监督策略难以比较。我们将计算机使用代理监督概念化为一个由委托结构和参与程度定义的结构性协调问题，并以此视角在真实网络环境中对48名参与者开展混合方法研究，比较四种监督策略。研究结果表明，监督策略对用户接触问题行为的可靠性影响，远大于问题行为显现后用户的纠正能力。基于计划的策略与代理问题行为发生率降低相关，但一旦问题行为显现，运行时干预成功率并未获得同等程度的提升。在主观评价指标上，没有单一策略在所有方面表现最佳，最明显的上下文敏感差异体现在信任度上。定性研究进一步表明，干预不仅取决于用户保留的控制权，还取决于风险时刻在执行过程中是否清晰可辨、需要判断。这些发现表明，有效的计算机使用代理监督并非仅通过最大化人类参与来实现，而是取决于如何构建监督机制，以凸显决策关键节点，并支持用户在关键时刻识别问题，实现有效干预。

📊 核心分析

🎯 研究动机

研究动机： • 解决LLM驱动的计算机使用代理(computer-use agents, CUAs)从直接操作转向监督协调时，现有监督机制作为孤立界面功能研究的问题 • 研究背景是缺乏对更广泛监督策略的系统比较框架

🔧 核心方法

核心方法： • 将CUA监督概念化为由委托结构(delegation structure)和参与程度(engagement level)定义的结构协调问题 • 在实时网络环境中对48名参与者进行混合方法(mixed-methods)研究 • 比较四种监督策略，结合定量和定性分析

💡 核心创新

核心创新点： • 提出将CUA监督重新概念化为结构协调问题的新理论框架 • 发现监督策略更可靠地影响用户接触问题行为的概率，而非纠正能力 • 揭示基于计划(plan-based)的策略能降低代理问题行为发生率，但运行时干预成功率提升不均 • 关键发现：有效监督不取决于最大化人类参与，而取决于如何结构化监督以凸显关键决策时刻并支持及时识别

🏆 总体贡献

总体贡献： • 建立了比较CUA监督策略的系统框架和分类维度 • 实证表明不同监督策略在问题预防、干预成功率和主观信任方面存在差异化影响 • 提出监督有效性取决于使风险时刻在执行过程中可识别为需要判断的关键见解 • 为设计更有效的CUA人机协作系统提供了实证基础和设计原则