超越二元成功：细粒度操控的诊断性元评估框架

📝 论文摘要

细粒度操纵标志着一个全球场景背景不再足够、成功依赖于局部属性对齐、高保真空间感知和遵循约束的运动执行紧密耦合的领域。然而，当前的具身AI基准将这些能力简化为二元成功率，系统性地将报告的能力夸大了高达70%，并掩盖了阻碍现实部署的架构瓶颈。我们提出了MetaFine，一个诊断性元评估框架，它将操纵能力沿着三个轴解耦：理解、感知和受控行为。基于组合任务图构建，MetaFine吸收异构外部基准，并在统一协议下将它们重构为不同复杂度的诊断场景。通过这一视角评估最先进的视觉-语言-动作（VLA）模型，暴露了传统指标无法观察到的特定维度的严重缺陷。通过针对性的因果干预，我们识别出视觉编码器保留局部空间结构的能力是细粒度精度的关键瓶颈：改进它直接解锁了之前无法实现的操纵能力，而无需修改下游策略。MetaFine进一步支持混合现实-仿真验证，利用有限的配对现实世界部署来校准可扩展的仿真估计，以实现更稳定的物理基准测试。通过将评估从排名转向诊断，MetaFine将基准测试转变为修复真正物理灵活性所依赖的分层能力的可操作指南。MetaFine框架、基准和支持资源将在我们的项目页面公开发布：https://metafine.github.io/。

🎯 研究动机

- 现有**具身智能(embodied AI)** 基准将细粒度操作能力压缩为**二元成功率(binary success rates)**，导致报告的能力被系统性高估（高达70%），且掩盖了阻碍真实部署的架构瓶颈 - 全局场景上下文不足以判断细粒度操作的成功，成功依赖于**局部属性定位(local attribute grounding)**、**高保真空间感知(high-fidelity spatial perception)** 和**遵守约束的运动执行(constraint-respecting motor execution)** 的紧密耦合 - 研究背景：当前评估范式从排名转向诊断的需求日益增长，需要将基准测试转变为修复能力的行动指南

🔧 核心方法

- 提出**MetaFine**，一个**诊断性元评估框架(diagnostic meta-evaluation framework)**，沿三个轴解构操作能力：**理解(understanding)**、**感知(perception)** 和**控制行为(controlled behavior)** - 基于**组合任务图(compositional task graph)**，吸收异构外部基准，在统一协议下重构为不同复杂度的诊断场景 - 通过**靶向因果干预(targeted causal intervention)**，识别出**视觉编码器(visual encoder)** 保持局部空间结构的能力是细粒度精度的关键瓶颈 - 支持**混合真实-仿真验证(hybrid real-sim validation)**，使用有限的配对真实世界 rollout 校准可扩展的仿真估计

💡 核心创新

- **首创性**：首次提出超越二元成功率的诊断性元评估框架，将评测从排名转向**诊断(diagnosis)**，揭示传统指标无法发现的维度特异性失败 - **因果分析驱动**：通过靶向因果干预明确指向**视觉编码器** 是瓶颈，并证明改进视觉编码器可直接解锁下游策略无法达到的操作能力，无需修改策略本身 - **统一协议与混合验证**：提供统一协议整合异构基准，并结合真实-仿真混合验证提升物理基准的稳定性

🏆 总体贡献

- 为**细粒度操作(fine-grained manipulation)** 领域提供了一种**诊断性评估范式(diagnostic evaluation paradigm)**，将基准测试转变为修复能力的行动指南 - 揭示了**视觉编码器** 在保持局部空间结构方面的瓶颈，为未来模型设计提供方向 - 将公开框架、基准和支持资源（项目页面：https://metafine.github.io/），促进社区复现与后续研究

超越二元成功：细粒度操控的诊断性元评估框架
Beyond Binary Success: A Diagnostic Meta-Evaluation Framework for Fine-Grained Manipulation

📊 核心分析

超越二元成功：细粒度操控的诊断性元评估框架 Beyond Binary Success: A Diagnostic Meta-Evaluation Framework for Fine-Grained Manipulation

📊 核心分析

超越二元成功：细粒度操控的诊断性元评估框架
Beyond Binary Success: A Diagnostic Meta-Evaluation Framework for Fine-Grained Manipulation