评估生成模型作为类人协作行为的交互式涌现表示

📝 论文摘要

人机协作要求人工智能体理解人类行为以实现有效协调。尽管基础模型在理解和展现类人行为方面展现出令人瞩目的能力，但其在具身协作场景中的应用仍需进一步探究。本研究旨在考察具身基础模型智能体是否展现出表明其具备协作对象内在心智模型的涌现协作行为——这是实现有效协调的重要方面。本文构建了一个二维协作游戏环境，其中大语言模型智能体与人类需完成需要协调的颜色匹配任务。我们定义了五种协作行为作为心智模型涌现表征的指标：视角采择、协作感知规划、内省、心智理论和澄清。采用基于大语言模型的评判者构建的自动化行为检测系统能够识别这些行为，其与人工标注结果达到相当至显著的一致性。自动化行为检测系统结果显示，基础模型在未经明确训练的情况下持续展现出涌现协作行为。这些行为在协作阶段以不同频率发生，且不同大语言模型间呈现差异化模式。此外还进行了用户研究以评估人类满意度及感知协作效果，结果表明协作体验积极。参与者认可智能体的任务聚焦、计划外化及主动性，同时建议改进响应时间和类人交互方式。本研究为人机协作提供了实验框架、具身大语言模型智能体协作行为的实证依据、经过验证的行为分析方法论以及协作效果评估体系。

🎯 研究动机

- 人类-AI协作需要AI代理理解人类行为以实现有效协调 - 当前基础模型在理解与展现类人行为方面展现出潜力，但在**具身协作(embodied collaborative)** 环境中的应用仍需进一步研究 - 核心问题：检测具身基础模型代理是否表现出暗示协作方**心理模型(mental model)** 的新兴协作行为，这是有效协调的重要方面

🔧 核心方法

- 构建一个2D协作游戏环境，让**大型语言模型(Large Language Model, LLM)** 代理与人类完成需要协调的颜色匹配任务 - 定义五种协作行为作为新兴心理模型表征的指标：**观点采择(perspective-taking)**、**协作感知规划(collaborator-aware planning)**、**内省(introspection)**、**心智理论(theory of mind)** 和**澄清(clarification)** - 开发基于LLM评判者的**自动行为检测系统(automated behavior detection system)**，对上述行为进行识别，并通过与人工标注的一致性验证（达到公平到实质性的一致）

💡 核心创新

- **首创性**：首次系统性地实证研究基础模型在具身协作任务中是否表现出代表心理模型的新兴协作行为 - **行为指标体系**：提出一套可操作的五种协作行为作为心理模型表征指标，并设计自动检测方法实现高效评估 - **自动化评估方法**：用**LLM作为评判者(LLM-based judges)** 替代昂贵的人工标注进行行为检测，验证了方法的有效性 - **实证发现**：证明基础模型在未经明确训练的情况下一致地表现出新兴协作行为，且不同LLM呈现出不同的行为模式

🏆 总体贡献

- 提供了一个人类-AI协作的**实验框架(experimental framework)**，包括2D游戏环境和行为定义 - 提供了具身LLM代理表现出协作行为的**实证证据(empirical evidence)** - 提供了一种经过验证的**行为分析方法论(behavioral analysis methodology)** （基于LLM的自动检测） - 通过用户研究评估了**协作有效性(collaboration effectiveness)**，表明参与者有积极的协作体验，并指出改进方向（如响应时间与类人交互）

评估生成模型作为类人协作行为的交互式涌现表示
Evaluating Generative Models as Interactive Emergent Representations of Human-Like Collaborative Behavior

📊 核心分析

评估生成模型作为类人协作行为的交互式涌现表示 Evaluating Generative Models as Interactive Emergent Representations of Human-Like Collaborative Behavior

📊 核心分析

评估生成模型作为类人协作行为的交互式涌现表示
Evaluating Generative Models as Interactive Emergent Representations of Human-Like Collaborative Behavior