选择还是不选择，这是个问题：将机器人技能预测蒸馏到小型集成模型中

📝 论文摘要

随着机器人集群日益异构化，包括人形机器人、探测车、四足机器人和无人机，为任务选择合适的机器人成为核心系统问题。我们研究机器人技能预测：将自然语言任务描述映射到执行该任务所需的物理能力，例如飞行、轮式、腿式、水面、水下和手部操作。由于缺乏将自然语言任务描述映射到机器人物理能力的标注数据，我们利用大语言模型辅助生成和针对性标签审核，构建了一个合成任务-技能数据集。在该数据上训练一个约1.33亿参数的集成模型（两个微调的句子编码器mpnet + MiniLM），在分层抽样的200个任务数据集上达到了83.5%的任务到技能匹配准确率，在相同零样本提示条件下，优于Kimi K2（1T MoE）的72.0%、GPT-OSS-120B的71.5%和Llama-4-Scout-17B的69.0%。这些结果表明，对于固定的机器人技能分类体系，基于合成数据训练的小型专用模型在集群级任务路由方面可以超越规模大得多的通用大语言模型。

🎯 研究动机

- 机器人编队日益异构化，包含人形机器人、漫游车、四足机器人和无人机等，需要为任务选择合适的机器人，这是一个核心系统问题 - 现有方法缺乏将自然语言任务描述映射到机器人物理能力（如飞行、轮子、腿、水面、水下、手）的标注数据 - 大语言模型(LLM)在零样本条件下表现不佳，且计算成本高

🔧 核心方法

- 构建合成任务-技能数据集，使用**大语言模型辅助生成(LLM-assisted generation)** 和**定向标签审计(targeted label auditing)** 创建训练数据 - 训练一个约1.33亿参数的**集成模型(ensemble)**，包含两个微调的句子编码器：**mpnet** 和**MiniLM** - 在分层200任务数据集上评估**任务-技能匹配(task-to-skill matching)** 准确率

💡 核心创新

- **合成数据+小模型超越大模型**：133M参数的专用集成在任务-技能匹配上达到83.5%准确率，显著优于Kimi K2(1T MoE)的72.0%、GPT-OSS-120B的71.5%和Llama-4-Scout-17B的69.0% - **首次证明**：针对固定机器人技能分类，小模型集成可以替代超大规模通用LLM完成舰队级任务路由 - **无需人工标注**：通过LLM辅助生成和审计自动构建训练数据，解决标注缺失问题

🏆 总体贡献

- 提供了一种高效、低成本的**舰队级任务路由(fleet-level task routing)** 方案，适用于异构机器人编队 - 展示了在特定领域任务中，合成数据训练的专用小模型可以超越通用大模型，挑战了“更大模型必然更好”的范式 - 开源或公开方法（数据集、模型）可促进机器人任务规划领域的可复现研究

选择还是不选择，这是个问题：将机器人技能预测蒸馏到小型集成模型中
To Select or not to Select, that is the Question: Distilling Robot Skill Prediction into a Small Ensemble

📊 核心分析

选择还是不选择，这是个问题：将机器人技能预测蒸馏到小型集成模型中 To Select or not to Select, that is the Question: Distilling Robot Skill Prediction into a Small Ensemble

📊 核心分析

选择还是不选择，这是个问题：将机器人技能预测蒸馏到小型集成模型中
To Select or not to Select, that is the Question: Distilling Robot Skill Prediction into a Small Ensemble