← 返回论文列表

Robo-Cortex: 基于双粒度认知记忆和自主知识归纳的自我进化具身智能体
Robo-Cortex: A Self-Evolving Embodied Agent via Dual-Grain Cognitive Memory and Autonomous Knowledge Induction

作者: Nga Teng Chan, Yi Zhang, Yechi Liu 等12人
arXiv: 2605.18729v1
分类: cs.RO, cs.CV
📝 论文摘要
在复杂环境中导航与交互的能力是真实世界具身智能体的核心,然而由于“经验性失忆”现象,现有基于轨迹或反应式策略无法从过往交互中综合出可泛化的策略,导致在未知环境中的导航仍具有挑战性。为此,我们提出Robo-Cortex——一个自进化框架,使机器人能够自主归纳导航启发式规则,并通过持续的“反思-适应”循环优化认知策略。通过将成功模式与失败陷阱抽象为自然语言启发式规则,Robo-Cortex实现了从被动执行到主动策略演化的转变。我们的核心创新在于自主知识归纳(AKI)机制,该机制将多模态轨迹提炼为结构化导航启发式规则库,实现知识泛化。该架构进一步集成了双粒度认知记忆系统,包含用于实时局部进展分析的短期反思记忆(SRM)以及将历史轨迹抽象为可复用的指导性原则与警示性原则的长期原则记忆(LPM)。为确保稳健决策,我们引入多模态“想象-验证”循环:世界模型模拟潜在结果,基于视觉语言模型(VLM)的评估器验证行动计划。在IGNav、AR和AEQA基准上的广泛评估表明,Robo-Cortex在任务成功率和探索效率上持续超越强基线方法,相较于最优先验方法SPL提升最高达+4.16%,在启发式规则迁移至未知环境时SPL提升最高达+15.30%。初步的真实世界机器人实验进一步验证了Robo-Cortex在物理场景中的有效性。

📊 核心分析

🎯 研究动机
- 解决具身智能体在未知环境中因**经验性失忆(experiential amnesia)** 导致的导航问题,现有轨迹驱动或反应式策略无法从过去交互中综合泛化策略 - 研究背景:复杂环境的导航与交互是真实世界具身智能体的核心能力,但现有方法在未见环境中表现不佳
🔧 核心方法
- 提出**Robo-Cortex** 自演化框架,通过**持续反思-适应循环(continuous reflection-adaptation loop)** 自主归纳导航启发式并优化认知策略 - 核心组件包括:**自治知识归纳(Autonomous Knowledge Induction, AKI)** 机制,将多模态轨迹提炼为结构化**导航启发式库(Navigation Heuristic Library)**;**双粒度认知记忆(Dual-Grain Cognitive Memory)** 系统,包含**短期反思记忆(Short-term Reflective Memory, SRM)** 和**长期原则记忆(Long-term Principle Memory, LPM)** - 引入**多模态想象-验证循环(multimodal Imagine-then-Verify loop)**,其中世界模型模拟潜在结果,基于**视觉-语言模型(Vision-Language Model, VLM)** 的评估器验证行动方案
💡 核心创新
- **首创性**:首次将**自治知识归纳(AKI)** 机制应用于具身导航,自动从多模态轨迹中抽取成功模式和失败陷阱,形成自然语言启发式,实现从被动执行到主动策略演化 - **记忆架构创新**:双粒度记忆设计(SRM用于局部实时分析,LPM用于跨轨迹抽象)有效缓解经验性失忆,提升知识泛化能力 - **验证机制**:多模态想象-验证循环结合世界模型与VLM评估,确保决策鲁棒性,区别于传统无模型或单模态方法
🏆 总体贡献
- 为具身智能体导航领域提供了一种**自演化框架(self-evolving framework)**,使机器人能够通过持续反思适应未知环境 - 在IGNav、AR、AEQA等基准上超越强基线,任务成功率与探索效率提升显著,最高**SPL提升+15.30%** (在未知环境下的启发式迁移) - 开展初步真实机器人实验,验证方法在物理世界中的有效性,推动从仿真到现实迁移