CSR：具有大规模缓存状态表示的无限时域实时策略

📝 论文摘要

部署大规模大型语言模型（LLM）作为机器人持续认知引擎的瓶颈在于处理大量状态历史所需的首令牌时间（TTFT）延迟。现有解决方案如RAG或滑动窗口会损害全局上下文，或产生高昂的重新计算成本。我们形式化了最小化延迟的最优任务结构，并从理论上证明前缀稳定性、增量可扩展性和异步状态协调是实现实时性能的必要条件。基于这些证明，我们提出缓存状态表示（CSR）框架作为这些属性的实际实例化，确保最优的KV缓存重用。为了在无限时间范围内维持这些属性，我们进一步提出异步状态协调（ASR）算法，将状态内存驱逐卸载到并行计算资源上以消除延迟尖峰。在一台通过无线连接到本地GPU服务器的物理机器人上，CSR在使用235B参数模型处理120K令牌上下文时，相比标准基线实现了26倍的延迟降低（从14.67秒降至0.56秒）。在具身AI基准测试中，我们在保持RAG级延迟的同时达到了SOTA召回率（0.836对比0.459）。ASR在连续真实世界操作中经过10次驱逐周期验证，能够维持有界、无尖峰的TTFT。CSR和ASR共同使大规模LLM能够作为持续运行、高频（>2 Hz）的具身策略发挥作用。

🎯 研究动机

- 大规模**大语言模型(LLM)** 作为机器人持续认知引擎时，处理大量状态历史的**首次Token延迟(TTFT)** 成为性能瓶颈 - 现有方案如**检索增强生成(RAG)** 或滑动窗口会损害全局上下文，或导致高昂的重新计算成本 - 需要一种能够在不牺牲全局信息的前提下，实现无限时间范围内实时响应的方法

🔧 核心方法

- 形式化最优任务结构，理论上证明**前缀稳定性(prefix stability)**、**增量可扩展性(incremental extensibility)** 和**异步状态协调(asynchronous state reconciliation)** 是实现实时性能的必要条件 - 提出**缓存状态表示(CSR)** 框架，作为上述属性的实际实例化，确保最优的**键值缓存重用(KV-cache reuse)** - 进一步提出**异步状态协调(ASR)** 算法，将状态内存驱逐卸载到并行计算资源上，以消除延迟尖峰

💡 核心创新

- **理论奠基**：首次从数学上证明实时性所需的三个必要条件（前缀稳定性、增量可扩展性、异步状态协调） - **CSR框架**：基于理论条件设计的缓存机制，实现最优**键值缓存(KV-cache)** 重用，避免冗余计算 - **ASR算法**：通过异步并行驱逐消除延迟尖峰，使得系统能在无限时间范围内维持有界且无尖峰的首次Token延迟(TTFT)

🏆 总体贡献

- 在物理机器人实验中，使用235B参数模型处理120K token上下文时，实现**26倍延迟降低** （从14.67s降至0.56s） - 在具身AI基准上达到**SOTA召回率(0.836 vs 0.459)**，同时保持RAG级别的低延迟 - 验证了ASR在持续真实操作中10个驱逐周期内维持无尖峰TTFT，使大规模LLM可作为**连续高频(>2Hz)** 的具身策略运行

CSR：具有大规模缓存状态表示的无限时域实时策略
CSR: Infinite-Horizon Real-Time Policies with Massive Cached State Representations

📊 核心分析

CSR：具有大规模缓存状态表示的无限时域实时策略 CSR: Infinite-Horizon Real-Time Policies with Massive Cached State Representations

📊 核心分析

CSR：具有大规模缓存状态表示的无限时域实时策略
CSR: Infinite-Horizon Real-Time Policies with Massive Cached State Representations