现有具身智能(embodied intelligence)系统在视觉-语言导航(VLN)任务中面临推理能力与嵌入式部署效率之间的根本性权衡,难以在计算、内存、能量和实时性严格受限的平台上同时实现强推理与高效部署。
提出一种可部署的具身VLN系统,将系统解耦为三个异步模块:实时感知模块(real-time perception module)用于连续环境感知、记忆整合模块(memory integration module)用于空间-语义聚合、推理模块(reasoning module)用于高层决策。通过增量构建认知记忆图(cognitive memory graph)编码场景信息,并将其分解为子图以支持视觉-语言模型(VLM)推理;同时利用该图将探索问题建模为上下文感知的加权旅行维修工问题(context-aware Weighted Traveling Repairman Problem, WTRP),最小化视点的加权等待时间。
核心创新在于:1) 将系统解耦为异步模块,实现实时感知与高层推理的并行执行,突破资源受限硬件的性能瓶颈;2) 提出认知记忆图(cognitive memory graph)及其子图分解策略,使VLM能够高效处理大规模场景信息;3) 将导航探索形式化为上下文感知的WTRP问题,通过最小化加权等待时间同时提升导航效率与准确性。
该论文提出首个在资源受限硬件上实现实时性能且保持强推理能力的可部署具身VLN系统,通过模块解耦、认知记忆图与WTRP建模,在仿真和真实机器人平台上显著提升了导航成功率与效率,为具身智能从实验室走向实际部署提供了可行方案。