← 返回论文列表

自动驾驶车辆中基于大语言模型的多规划器调度实现开放式指令
Open-Ended Instruction Realization with LLM-Enabled Multi-Planner Scheduling in Autonomous Vehicles

作者: Jiawei Liu, Xun Gong, Fen Fang 等9人
arXiv: 2604.08031v1
分类: cs.RO, cs.CV
📝 论文摘要
当前大多数人机交互研究忽视了自动驾驶中乘客的操控需求。自然语言虽能提供直观交互界面,但如何在不牺牲可解释性与可追溯性的前提下,将乘客开放式指令转化为控制信号仍是挑战。本研究提出一种指令实现框架:利用大语言模型解析指令,基于实时反馈生成可执行脚本以调度多个基于模型预测控制的运动规划器,并将规划轨迹转化为控制信号。这种以调度为核心的设计实现了语义推理与车辆控制在多时间尺度上的解耦,构建了从高层指令到底层动作的透明可追溯决策链。针对高保真评估工具的缺失,本研究建立了闭环场景下的开放式指令实现基准测试体系。综合实验表明:该框架在任务完成率上显著超越现有指令实现基线方法,降低了大语言模型查询成本,在安全性与合规性方面达到专业自动驾驶方案同等水平,并对大语言模型推理延迟展现出较强容忍度。

📊 核心分析

🎯 研究动机
该论文旨在解决自动驾驶(autonomous driving)中人机交互(Human-Machine Interaction)领域的一个关键问题:如何将乘客的开放式(open-ended)自然语言指令(如“开得平稳些”)可靠地转化为车辆的控制信号,同时不牺牲决策过程的**可解释性(interpretability)**和**可追溯性(traceability)**。研究背景是现有HMI研究大多忽视了乘客在自动驾驶中对车辆**操纵(maneuvering)**的具体需求。
🔧 核心方法
论文提出了一个指令实现(instruction-realization)框架,其核心是一个**基于大语言模型(Large Language Model, LLM)的多规划器调度(Multi-Planner Scheduling)**系统。具体步骤包括: - 利用**大语言模型(LLM)** 解析乘客的开放式指令。 - 生成可执行脚本,该脚本能根据实时反馈,调度多个**基于模型预测控制(Model Predictive Control, MPC)** 的运动规划器(motion planner)。 - 将规划出的轨迹(trajectory)转换为最终的控制信号。 - 此外,研究还引入了一个用于闭环(closed-loop)环境下评估开放式指令实现的基准(benchmark)。
💡 核心创新
论文的核心创新在于其**以调度为中心(scheduling-centric)** 的架构设计,以及由此实现的**透明决策链(transparent decision-making chain)**。具体独特之处包括: - **解耦(Decoupling)设计**:将**语义推理(semantic reasoning)**(由LLM在较长时间尺度处理)与**车辆控制(vehicle control)**(由MPC规划器在较短时间尺度处理)解耦,突破了传统端到端(end-to-end)黑箱方法的局限。 - **多规划器调度**:利用LLM生成的脚本动态调度多个专用MPC规划器,而非依赖单一模型,从而灵活、可靠地满足复杂指令。 - **系统级可追溯性**:该架构明确建立了从高级指令到低级动作的、可追溯的决策链条,显著提升了系统的透明度和可信度。
🏆 总体贡献
论文对该领域的整体贡献主要体现在方法论和评估体系两方面: - **提出了一种新颖、可解释的开放式指令实现框架**:该框架有效结合了LLM的语义理解能力和传统控制方法的可靠性,在提升任务完成率的同时,降低了LLM的查询(query)成本,并对LLM推理延迟(inference latency)表现出良好的容忍度。 - **建立了首个闭环评估基准**:针对该研究问题缺乏高保真度(high-fidelity)评估工具的现状,引入了专门的基准,为未来研究提供了重要的评估基础。 - **验证了性能优势**:通过综合实验证明,该框架在任务完成率、安全性(safety)、合规性(compliance)方面均优于基线方法(baseline),且能达到与专用自动驾驶方法相当的水平。