神经控制：通过平衡约束的伴随学习

📝 论文摘要

许多物理人工智能任务受隐式均衡支配：智能体驱动部分自由度（边界自由度），而其余自由自由度通过最小化总势能来达到稳定。即便是弯曲可变形线性对象（DLO）至目标形状这类看似简单的任务，也可能因多稳定性而呈现强非线性行为——相同边界条件可能根据驱动轨迹产生多个均衡形状。然而，此类系统中的学习与控制较为脆弱，因为驱动到构型的映射仅被隐式定义，且通过迭代均衡求解器进行简单的反向传播会消耗大量内存与计算资源。我们提出神经控制（Neural Control）这一边界控制框架，通过伴随公式对均衡条件求导，计算轨迹依赖且内存高效的代理梯度，从而避免展开求解器迭代。为提升长时域鲁棒性，我们将这些灵敏度集成到滚动时域MPC方案中，反复将优化重新锚定至已实现的均衡态，并缓解多稳定域中的势阱跃迁。我们在仿真环境及物理机器人操控DLO的任务中对神经控制进行评估，结果表明其性能优于SPSA和CEM等无梯度基线方法。

🎯 研究动机

- 许多物理AI任务由**隐式平衡(implicit equilibrium)** 支配：代理驱动部分自由度（边界自由度），其余自由自由度通过最小化总势能达到平衡 - 即使看似简单的任务如弯曲可变形线性物体(DLO)至目标形状，由于**多稳态(multi-stability)**，相同边界条件可能产生多个平衡形状，取决于驱动轨迹 - 现有方法中，驱动到配置的映射仅隐式定义，通过迭代平衡求解器进行朴素反向传播在内存和计算上非常昂贵，导致学习和控制脆弱

🔧 核心方法

- 提出**Neural Control** 框架，一种**边界控制(boundary-control)** 方法，通过**伴随公式(adjoint formulation)** 对平衡条件进行微分，计算**轨迹依赖、内存高效的代理梯度(proxy gradients)**，避免展开求解器迭代 - 集成这些灵敏度到**滚动时域MPC(receding-horizon MPC)** 方案中，通过反复将优化重新锚定到已实现的平衡点，增强鲁棒性 - 在仿真和物理机器人操作DLO上进行评估，与**SPSA** 和**CEM** 等无梯度基线进行比较

💡 核心创新

- **首次** 将**伴随学习(adjoint learning)** 与平衡约束结合，实现边界控制中的高效梯度计算，无需展开迭代求解器 - 提出**滚动时域重锚定(receding-horizon re-anchoring)** 策略，缓解多稳态系统中的**盆地切换(basin-switching)** 问题，提高长时域控制鲁棒性 - **内存高效**：代理梯度计算不依赖求解器迭代展开，显著降低反向传播内存和计算成本

🏆 总体贡献

- 为物理AI中的隐式平衡系统提供了一种新颖的、可微的控制框架，避免传统无梯度方法的低效和展开方法的昂贵 - 在可变形线性物体操控任务上展示了优于**SPSA** 和**CEM** 等无梯度基线的性能 - 推动了**隐式模型(implicit models)** 在机器人控制领域的应用，为多稳态系统提供了实用的边界控制方案

神经控制：通过平衡约束的伴随学习
Neural Control: Adjoint Learning Through Equilibrium Constraints

📊 核心分析

神经控制：通过平衡约束的伴随学习 Neural Control: Adjoint Learning Through Equilibrium Constraints

📊 核心分析

神经控制：通过平衡约束的伴随学习
Neural Control: Adjoint Learning Through Equilibrium Constraints