- 从**自我中心视觉(egocentric vision)** 理解人类-环境交互是辅助机器人和具身智能体的关键需求
- 现有的**多模态大语言模型(Multimodal Large Language Models, MLLMs)** 在准确的交互推理和细粒度像素接地(pixel grounding)方面仍然表现不佳
- 研究背景:现有方法难以将粗粒度的交互语义转化为查询导向的问答和接地结果
- 提出**EARL(Ego-centric Analysis-guided Reinforcement Learning)** 框架,采用两阶段解析:**粗粒度解释(coarse-grained interpretation)** 和**细粒度响应(fine-grained response)**
- 第一阶段生成结构化文本描述,第二阶段生成文本答案和像素级掩码(pixel-level mask)
- 提取**全局交互描述符(global interaction descriptor)** 作为语义先验,通过**分析引导特征合成器(Analysis-guided Feature Synthesizer, AFS)** 集成到查询导向推理中
- 设计多面奖励函数(multi-faceted reward function)并使用**GRPO(Group Relative Policy Optimization)** 训练响应阶段以优化异构输出(文本答案、边界框、接地掩码)
- **统一框架创新**:首次将精细的语义分析显式地作为先验信息,通过**AFS** 模块将粗粒度交互描述符整合到细粒度接地推理中,实现查询导向的像素级接地
- **训练策略创新**:采用**多面奖励函数** 和**GRPO** 优化混合输出,同时处理文本、边界框和掩码,区别于仅优化单一输出的传统RL方法
- **性能与泛化性**:在像素接地任务上达到**65.48% cIoU**,比先前基于RL的方法提升**8.37%**;在**EgoHOS** 的OOD(out-of-distribution)接地实验展示强迁移能力
- 为**自我中心交互推理与像素接地** 提供了一种新颖的分析引导强化学习范式,有效弥合粗粒度语义与细粒度接地之间的鸿沟
- 在标准基准**Ego-IRGBench** 和**EgoHOS** 上取得显著性能提升,证明了方法的有效性和泛化性
- 开源框架和奖励设计为后续研究提供了可复现的基线,推动了自我中心视觉理解领域的发展