该论文旨在解决具身智能体(embodied agents)在能力模块升级时的系统安全问题。研究背景是:现有工作分别研究了模块化能力封装、能力演化和运行时治理,但一个关键系统问题尚未充分探索:一旦具身能力模块(embodied capability module)演化为新版本,宿主系统如何安全部署而不违反策略约束、破坏执行假设或恢复保证?
论文提出了一个生命周期感知的升级框架(lifecycle-aware upgrade framework),将每个新能力版本视为受治理的部署候选(governed deployment candidate)。该框架引入了四种升级兼容性检查:接口(interface)、策略(policy)、行为(behavioral)和恢复(recovery)检查,并将其组织成一个分阶段的运行时管道(staged runtime pipeline),包括:候选验证(candidate validation)、沙盒评估(sandbox evaluation)、影子部署(shadow deployment)、门控激活(gated activation)、在线监控(online monitoring)和回滚(rollback)。
论文的核心创新点在于:
- 首次将受治理的能力演化(governed capability evolution)定义为一流的系统问题(first-class systems problem)用于具身智能体。
- 提出了一个系统化的升级框架,将新版本视为需要经过严格治理流程的候选,而非直接可执行的替换。
- 设计了四种具体的兼容性检查(接口、策略、行为、恢复)和一个分阶段的运行时部署管道,确保升级的安全性、兼容性和可恢复性。
- 通过影子部署(shadow deployment)等机制,能够检测到仅靠沙盒评估无法发现的40%的性能回归(regressions)。
论文对该领域的整体贡献是:
- 为具身智能体的能力模块升级提供了一个系统化的安全治理框架。
- 通过实验证明,该治理升级方法在保持可比任务成功率(67.4% vs 72.9%)的同时,能将不安全激活(unsafe activation)从60%降至零,并具有统计显著性(Wilcoxon p=0.003)。
- 展示了影子部署和回滚机制的有效性,影子部署能发现沙盒评估遗漏的回归,而回滚在79.8%的激活后漂移(post-activation drift)场景中成功。
- 为解决智能体系统在持续演化中的安全、可靠部署问题提供了新的方法论和实证依据。