打破认知陷阱：复合不确定性下的主动感知

📝 论文摘要

在安全关键领域（从自动驾驶到医疗决策支持）部署强化学习时，系统在遭遇陌生情境时产生的失效构成了根本性约束。我们认为，其核心瓶颈并非动态环境变化或不完整观测等单个挑战，而是这些挑战的协同交互作用——我们称之为“认知陷阱”：智能体若不了解系统动态就无法估计自身状态，而缺乏准确状态信息又无法学习动态。在模拟运动控制中的概念验证实验表明，这些不确定性耦合会导致远超单一挑战的失效程度：性能衰减达77%，而单独效应叠加仅为46%，这揭示了传统方法所忽视的复合失效模式。此类方法采用被动认知立场，无法解决这种耦合不确定性。我们提出将安全性重新定义为信息问题，并引入自适应安全架构，其三大贡献为：复合不确定性系数（κ）——一种基于互信息的度量，可量化状态-动态耦合程度，且无需完整联合信念推断即可在线计算；基于MaxInfoRL目标驱动的信息寻求策略，能主动探测系统动态；以及随认知耦合程度增强而自适应收紧的情境感知安全约束。这一范式转变——从被动鲁棒性转向主动感知——为在不确定性下运行、识别自身认知局限并有策略地予以消解的决策系统提供了原则性路径。

🎯 研究动机

- 强化学习(reinforcement learning)在安全关键领域(如自动驾驶、医疗决策)部署时，因系统遭遇不熟悉条件而频繁失败 - 现有方法聚焦于单一挑战(如动态变化或不完全观测)，忽略了二者协同作用导致的**认知陷阱(Epistemic Trap)** - 实验表明组合不确定性造成**77%性能退化**，远超单独挑战之和(46%)，而传统被动方法无法应对这种耦合不确定性

🔧 核心方法

- 提出**自适应安全架构(Adaptive Safety Architecture)**，包含三个核心组件 - 引入**复合不确定性系数(Compound Uncertainty Coefficient, κ)**，基于互信息(mutual information)量化状态-动力学的耦合程度，并支持在线计算 - 设计**MaxInfoRL目标** 驱动信息寻求策略(information seeking policies)，主动探测系统动力学 - 实施**模态自适应安全约束(regime-adaptive safety constraints)**，随认知耦合上升而动态收紧

💡 核心创新

- **首次定义并形式化认知陷阱**：揭示状态估计与动力学学习的相互依赖是根本瓶颈，而非单一不确定性 - **复合不确定性系数κ**：无需完整联合信念推断即可在线计算，为主动感知提供可量化指标 - **主动感知范式**：从被动鲁棒性(passive robustness)转向主动感知(active perception)，使智能体能够识别自身无知并策略性地解决 - **统一框架**：将安全重定义为信息问题，融合信息论度量、强化学习和自适应约束

🏆 总体贡献

- 理论层面：识别并建模了**认知陷阱(Epistemic Trap)**，为安全关键强化学习提供新视角 - 方法论层面：提出包含κ、MaxInfoRL和自适应约束的完整**自适应安全架构**，可在线部署 - 实验层面：通过模拟运动控制实验定量证明组合不确定性的灾难性影响，弥补了现有方法忽视耦合效应的空白 - 应用层面：为构建在不确定性下主动认知并确保安全的自适应决策系统提供了原理性路径

打破认知陷阱：复合不确定性下的主动感知
Breaking the Epistemic Trap: Active Perception Under Compound Uncertainty

📊 核心分析

打破认知陷阱：复合不确定性下的主动感知 Breaking the Epistemic Trap: Active Perception Under Compound Uncertainty

📊 核心分析

打破认知陷阱：复合不确定性下的主动感知
Breaking the Epistemic Trap: Active Perception Under Compound Uncertainty