- 大规模**大语言模型(LLM)** 作为机器人持续认知引擎时,处理大量状态历史的**首次Token延迟(TTFT)** 成为性能瓶颈
- 现有方案如**检索增强生成(RAG)** 或滑动窗口会损害全局上下文,或导致高昂的重新计算成本
- 需要一种能够在不牺牲全局信息的前提下,实现无限时间范围内实时响应的方法
- 形式化最优任务结构,理论上证明**前缀稳定性(prefix stability)**、**增量可扩展性(incremental extensibility)** 和**异步状态协调(asynchronous state reconciliation)** 是实现实时性能的必要条件
- 提出**缓存状态表示(CSR)** 框架,作为上述属性的实际实例化,确保最优的**键值缓存重用(KV-cache reuse)**
- 进一步提出**异步状态协调(ASR)** 算法,将状态内存驱逐卸载到并行计算资源上,以消除延迟尖峰
- **理论奠基**:首次从数学上证明实时性所需的三个必要条件(前缀稳定性、增量可扩展性、异步状态协调)
- **CSR框架**:基于理论条件设计的缓存机制,实现最优**键值缓存(KV-cache)** 重用,避免冗余计算
- **ASR算法**:通过异步并行驱逐消除延迟尖峰,使得系统能在无限时间范围内维持有界且无尖峰的首次Token延迟(TTFT)
- 在物理机器人实验中,使用235B参数模型处理120K token上下文时,实现**26倍延迟降低** (从14.67s降至0.56s)
- 在具身AI基准上达到**SOTA召回率(0.836 vs 0.459)**,同时保持RAG级别的低延迟
- 验证了ASR在持续真实操作中10个驱逐周期内维持无尖峰TTFT,使大规模LLM可作为**连续高频(>2Hz)** 的具身策略运行