EARL：面向统一的分析导向强化学习框架，用于自我中心交互推理与像素定位

📝 论文摘要

从自我中心视觉理解人-环境交互对于辅助机器人和具身智能体至关重要，然而现有的多模态大语言模型（MLLMs）在精确的交互推理和细粒度像素定位方面仍面临挑战。为此，本文提出EARL——一种自我中心分析引导的强化学习框架，该框架将粗粒度交互语义显式迁移至面向查询的回答与定位任务。具体而言，EARL采用两阶段解析框架，包括粗粒度解释与细粒度响应。第一阶段整体性地解释自我中心交互并生成结构化文本描述；第二阶段根据用户查询生成文本答案与像素级掩码。为衔接两阶段，我们提取全局交互描述子作为语义先验，并通过新型分析引导特征合成器（AFS）将其整合以支持面向查询的推理。为优化包含文本答案、边界框与定位掩码的异构输出，我们设计了多维度奖励函数，并采用GRPO训练响应阶段。在Ego-IRGBench上的实验表明，EARL在像素定位任务上达到65.48%的cIoU，较以往基于强化学习的方法提升8.37%；而在EgoHOS上的域外定位结果则显示出对未见自我中心定位场景的强迁移能力。

🎯 研究动机

- 从**自我中心视觉(egocentric vision)** 理解人类-环境交互是辅助机器人和具身智能体的关键需求 - 现有的**多模态大语言模型(Multimodal Large Language Models, MLLMs)** 在准确的交互推理和细粒度像素接地(pixel grounding)方面仍然表现不佳 - 研究背景：现有方法难以将粗粒度的交互语义转化为查询导向的问答和接地结果

🔧 核心方法

- 提出**EARL（Ego-centric Analysis-guided Reinforcement Learning）** 框架，采用两阶段解析：**粗粒度解释(coarse-grained interpretation)** 和**细粒度响应(fine-grained response)** - 第一阶段生成结构化文本描述，第二阶段生成文本答案和像素级掩码(pixel-level mask) - 提取**全局交互描述符(global interaction descriptor)** 作为语义先验，通过**分析引导特征合成器(Analysis-guided Feature Synthesizer, AFS)** 集成到查询导向推理中 - 设计多面奖励函数(multi-faceted reward function)并使用**GRPO(Group Relative Policy Optimization)** 训练响应阶段以优化异构输出（文本答案、边界框、接地掩码）

💡 核心创新

- **统一框架创新**：首次将精细的语义分析显式地作为先验信息，通过**AFS** 模块将粗粒度交互描述符整合到细粒度接地推理中，实现查询导向的像素级接地 - **训练策略创新**：采用**多面奖励函数** 和**GRPO** 优化混合输出，同时处理文本、边界框和掩码，区别于仅优化单一输出的传统RL方法 - **性能与泛化性**：在像素接地任务上达到**65.48% cIoU**，比先前基于RL的方法提升**8.37%**；在**EgoHOS** 的OOD(out-of-distribution)接地实验展示强迁移能力

🏆 总体贡献

- 为**自我中心交互推理与像素接地** 提供了一种新颖的分析引导强化学习范式，有效弥合粗粒度语义与细粒度接地之间的鸿沟 - 在标准基准**Ego-IRGBench** 和**EgoHOS** 上取得显著性能提升，证明了方法的有效性和泛化性 - 开源框架和奖励设计为后续研究提供了可复现的基线，推动了自我中心视觉理解领域的发展

EARL：面向统一的分析导向强化学习框架，用于自我中心交互推理与像素定位
EARL: Towards a Unified Analysis-Guided Reinforcement Learning Framework for Egocentric Interaction Reasoning and Pixel Grounding

📊 核心分析

EARL：面向统一的分析导向强化学习框架，用于自我中心交互推理与像素定位 EARL: Towards a Unified Analysis-Guided Reinforcement Learning Framework for Egocentric Interaction Reasoning and Pixel Grounding

📊 核心分析

EARL：面向统一的分析导向强化学习框架，用于自我中心交互推理与像素定位
EARL: Towards a Unified Analysis-Guided Reinforcement Learning Framework for Egocentric Interaction Reasoning and Pixel Grounding