- 解决**具身大语言模型(Embodied LLMs)** 在机器人实时部署中的**内存占用大** 和**推理延迟高** 问题
- 现有剪枝方法通常在训练后或微调后执行,忽视了**闭环反馈(closed-loop feedback)** 对最终控制器性能的影响
- 研究背景:LLM作为机器人控制推理模块日益普及,但实时性成为瓶颈,亟需在保证任务性能的前提下压缩模型
- 提出**Before Parc Fermé (BPF)** 策略,在**强化学习(reinforcement learning, RL)** 阶段对具身LLM控制器进行剪枝,使剪枝决策受到闭环行为优化的监督
- 设计两种变体:**BPF-RL** 在RL训练过程中按预设间隔迭代移除部分模型;**BPF-SFT/RL** 先在有监督微调(SFT)阶段剪枝部分结构,再在RL阶段继续压缩至目标剪枝率
- 基于现有剪枝框架**LLM-Pruner**,在**RobotxR1** 自动驾驶控制管道上评估,并与后训练剪枝、后训练剪枝+RL恢复、SFT阶段剪枝及同族更小稠密模型对比
- **首创性**:首次在**强化学习训练过程中** 进行模型剪枝,利用任务特定监督和闭环反馈指导剪枝决策,而非传统后训练或微调后剪枝
- **策略设计**:提出SFT+RL两阶段剪枝策略,兼顾结构预缩减与端到端行为优化,比单一阶段剪枝更优
- **性能优势**:BPF-SFT/RL在压缩大型RobotxR1模型时,比直接选择同族更小稠密模型取得**1.69倍更好的参数量-端到端性能权衡** (每损失1%控制可适应性移除的参数更多)
- 为**具身LLM实时部署** 提供了一种有效的剪枝时机策略,即**在RL阶段剪枝**,平衡任务性能与内存/吞吐量
- 在**自动驾驶控制** 这一具身任务中验证了BPF的有效性,压缩后模型在Jetson AGX Orin平台上**提升解码吞吐量高达27%**
- 提供了BPF-RL和BPF-SFT/RL两种实用框架,为后续研究在不同训练阶段剪枝的利弊提供了基准和参考