封闭区之前：自动驾驶中高效具身大语言模型的强化学习时间剪枝

📝 论文摘要

具身大语言模型（Embodied LLMs）越来越多地被用作机器人控制流水线中的推理模块以改善人机交互，但其内存消耗与生成延迟使得实时部署面临挑战。剪枝技术可降低这些成本，但对于经历多次预训练与后训练阶段的控制器而言，关键问题不仅在于剪枝量，更在于剪枝时机。本文提出“赛道封闭前剪枝”（Before Parc Fermé, BPF）策略——在强化学习（RL）过程中对具身LLM控制器进行剪枝，且此时控制器仍处于闭环行为优化阶段。这使得剪枝决策能够兼顾塑造最终控制器的任务特定监督信号与闭环反馈。我们设计了两种变体：BPF-RL在强化学习过程中按预设训练间隔迭代移除部分模型参数；BPF-SFT/RL则先在监督微调（SFT）阶段剪除部分模型结构，再采用与BPF-RL相同的迭代策略在强化学习阶段进一步压缩模型，直至达到目标剪枝比率。我们基于LLM驱动的自动驾驶控制流水线RobotxR1，利用成熟的LLM剪枝框架（LLM-Pruner）评估BPF，并与后训练剪枝、后训练剪枝+强化学习恢复、SFT阶段剪枝以及同系列更小稠密模型进行对比。结果表明，在所考察的剪枝策略中，BPF在任务性能、内存与吞吐率之间实现了最佳权衡。当压缩较大规模的RobotxR1模型时，BPF-SFT/RL在规模-端到端性能折衷方面比直接选用同系列更小稠密模型优1.69倍（以每损失1%控制适应性所移除的参数数量衡量）。在目标机器人平台搭载的Jetson AGX Orin上，紧凑型模型的解码吞吐率最高提升27%。

🎯 研究动机

- 解决**具身大语言模型(Embodied LLMs)** 在机器人实时部署中的**内存占用大** 和**推理延迟高** 问题 - 现有剪枝方法通常在训练后或微调后执行，忽视了**闭环反馈(closed-loop feedback)** 对最终控制器性能的影响 - 研究背景：LLM作为机器人控制推理模块日益普及，但实时性成为瓶颈，亟需在保证任务性能的前提下压缩模型

🔧 核心方法

- 提出**Before Parc Fermé (BPF)** 策略，在**强化学习(reinforcement learning, RL)** 阶段对具身LLM控制器进行剪枝，使剪枝决策受到闭环行为优化的监督 - 设计两种变体：**BPF-RL** 在RL训练过程中按预设间隔迭代移除部分模型；**BPF-SFT/RL** 先在有监督微调(SFT)阶段剪枝部分结构，再在RL阶段继续压缩至目标剪枝率 - 基于现有剪枝框架**LLM-Pruner**，在**RobotxR1** 自动驾驶控制管道上评估，并与后训练剪枝、后训练剪枝+RL恢复、SFT阶段剪枝及同族更小稠密模型对比

💡 核心创新

- **首创性**：首次在**强化学习训练过程中** 进行模型剪枝，利用任务特定监督和闭环反馈指导剪枝决策，而非传统后训练或微调后剪枝 - **策略设计**：提出SFT+RL两阶段剪枝策略，兼顾结构预缩减与端到端行为优化，比单一阶段剪枝更优 - **性能优势**：BPF-SFT/RL在压缩大型RobotxR1模型时，比直接选择同族更小稠密模型取得**1.69倍更好的参数量-端到端性能权衡** （每损失1%控制可适应性移除的参数更多）

🏆 总体贡献

- 为**具身LLM实时部署** 提供了一种有效的剪枝时机策略，即**在RL阶段剪枝**，平衡任务性能与内存/吞吐量 - 在**自动驾驶控制** 这一具身任务中验证了BPF的有效性，压缩后模型在Jetson AGX Orin平台上**提升解码吞吐量高达27%** - 提供了BPF-RL和BPF-SFT/RL两种实用框架，为后续研究在不同训练阶段剪枝的利弊提供了基准和参考

封闭区之前：自动驾驶中高效具身大语言模型的强化学习时间剪枝
Before Parc Fermé: RL-Time Pruning for Efficient Embodied LLMs in Autonomous Driving

📊 核心分析

封闭区之前：自动驾驶中高效具身大语言模型的强化学习时间剪枝 Before Parc Fermé: RL-Time Pruning for Efficient Embodied LLMs in Autonomous Driving

📊 核心分析

封闭区之前：自动驾驶中高效具身大语言模型的强化学习时间剪枝
Before Parc Fermé: RL-Time Pruning for Efficient Embodied LLMs in Autonomous Driving