- 现有实体系统评估仅关注孤立基本技能,缺乏对**感知-决策-执行-场景保持** 全流程的系统级评测
- 德州扑克灵巧操作要求智能体实时感知变化的桌面场景、选择符合上下文的动作、用灵巧手执行并保持后续决策可用性
- 研究背景:灵巧操作(Deft manipulation)与复杂决策(complex decision-making)在真实物理环境中的结合尚未有标准化基准
- 提出**DexHoldem** 基准,基于ShadowHand构建14种德州扑克操作原语,包含1,470个遥操作(teleoperation)演示
- 设计两个子基准:**物理策略基准(physical policy benchmark)** 评估原语执行成功率(如π₀.₅达到61.2%完成率)和**智能感知基准(agentic perception benchmark)** 测试从视觉恢复结构化游戏状态的能力(Opus 4.7严格问题级准确率34.3%)
- 通过三个**完整闭环案例(embodied-agent loop)** 展示等待、恢复调度、人类求助请求及重复执行中感知与策略误差的累积效应
- **首创性**:首次将复杂牌局决策(德州扑克)与真实灵巧操作结合,构建系统级评测框架
- **场景保持率(scene-preserving success rate)** 指标引入,区分任务完成与场景可用性,π₀.₅和π₀均达到47.5%
- **暴露差距**:智能感知基准揭示孤立视觉子能力(GPT 5.5平均字段准确率66.8%)与完整路由相关状态恢复(Opus 4.7问题级准确率34.3%)之间的鸿沟
- **闭环累积分析**:三个案例研究直观展现感知和策略误差在闭环部署中的叠加效应
- 为**灵巧操作(dexterous manipulation)** 领域提供首个结合复杂决策的系统级标准基准
- 提供标准化物理策略基准和智能感知基准,促进跨模型比较(如π₀.₅、Opus 4.7、GPT 5.5)
- 通过案例研究揭示**闭环部署(closed-loop deployment)** 中误差积累的关键挑战,推动鲁棒性研究
- 开源项目及演示数据,便于社区复现与扩展