DexHoldem：使用灵巧具身系统玩德州扑克

📝 论文摘要

在真实灵巧硬件上评估具身系统，需要的不仅是孤立的底层技能：智能体必须感知变化的桌面场景，选择符合上下文情境的动作，通过灵巧手执行该动作，并保持场景可供后续决策使用。我们提出了DexHoldem——一个围绕ShadowHand进行得克萨斯扑克灵巧操作的真实世界系统级基准测试。DexHoldem提供了涵盖14种得克萨斯扑克操作原语的1,470次遥操作演示、一个标准化的物理策略基准测试，以及一个检测智能体能否恢复具身决策所需结构化游戏状态的智能体感知基准测试。在原始执行方面，$π_{0.5}$获得了最高的任务完成率（61.2%），而$π_{0.5}$和$π_0$在场景保持成功率上并列（47.5%）。在智能体感知方面，Opus 4.7在严格问题级准确率上表现最佳（34.3%），而GPT 5.5在场级平均准确率上最优（66.8%），这揭示了孤立视觉子能力与完整路由相关状态恢复之间的差距。最后，我们通过三个案例研究实例化了完整的具身智能体循环，其中等待、恢复调度、人工求助请求以及重复的原语执行揭示了在闭环部署过程中感知与策略误差的积累方式。因此，DexHoldem在共享物理环境下评估了灵巧桌面执行、智能体感知以及具身决策路由。项目页面：https://dexholdem.github.io/Dexholdem/。

🎯 研究动机

- 现有实体系统评估仅关注孤立基本技能，缺乏对**感知-决策-执行-场景保持** 全流程的系统级评测 - 德州扑克灵巧操作要求智能体实时感知变化的桌面场景、选择符合上下文的动作、用灵巧手执行并保持后续决策可用性 - 研究背景：灵巧操作(Deft manipulation)与复杂决策(complex decision-making)在真实物理环境中的结合尚未有标准化基准

🔧 核心方法

- 提出**DexHoldem** 基准，基于ShadowHand构建14种德州扑克操作原语，包含1,470个遥操作(teleoperation)演示 - 设计两个子基准：**物理策略基准(physical policy benchmark)** 评估原语执行成功率（如π₀.₅达到61.2%完成率）和**智能感知基准(agentic perception benchmark)** 测试从视觉恢复结构化游戏状态的能力（Opus 4.7严格问题级准确率34.3%) - 通过三个**完整闭环案例(embodied-agent loop)** 展示等待、恢复调度、人类求助请求及重复执行中感知与策略误差的累积效应

💡 核心创新

- **首创性**：首次将复杂牌局决策（德州扑克）与真实灵巧操作结合，构建系统级评测框架 - **场景保持率(scene-preserving success rate)** 指标引入，区分任务完成与场景可用性，π₀.₅和π₀均达到47.5% - **暴露差距**：智能感知基准揭示孤立视觉子能力（GPT 5.5平均字段准确率66.8%）与完整路由相关状态恢复（Opus 4.7问题级准确率34.3%）之间的鸿沟 - **闭环累积分析**：三个案例研究直观展现感知和策略误差在闭环部署中的叠加效应

🏆 总体贡献

- 为**灵巧操作(dexterous manipulation)** 领域提供首个结合复杂决策的系统级标准基准 - 提供标准化物理策略基准和智能感知基准，促进跨模型比较（如π₀.₅、Opus 4.7、GPT 5.5） - 通过案例研究揭示**闭环部署(closed-loop deployment)** 中误差积累的关键挑战，推动鲁棒性研究 - 开源项目及演示数据，便于社区复现与扩展

DexHoldem：使用灵巧具身系统玩德州扑克
DexHoldem: Playing Texas Hold'em with Dexterous Embodied System

📊 核心分析

DexHoldem：使用灵巧具身系统玩德州扑克 DexHoldem: Playing Texas Hold'em with Dexterous Embodied System

📊 核心分析

DexHoldem：使用灵巧具身系统玩德州扑克
DexHoldem: Playing Texas Hold'em with Dexterous Embodied System