← 返回论文列表

SR-平台:一种用于自然语言驱动的机器人仿真环境合成的代理式流水线
SR-Platform: An Agentic Pipeline for Natural Language-Driven Robot Simulation Environment Synthesis

作者: Ben Wei Lim, Minh Duc Le, Thang Truong 等4人
arXiv: 2605.14700v1
分类: cs.RO
📝 论文摘要
生成机器人仿真环境仍然是基于仿真的机器人学习中的一个主要瓶颈。构建一个可直接用于训练的MuJoCo场景通常需要具备3D资产建模、MJCF规范、空间布局、碰撞避免以及机器人模型集成等方面的专业知识。我们提出了SR-Platform,这是一个已投入生产部署的智能体系统,能够将自由形式的自然语言描述转化为可执行且物理有效的MuJoCo环境。SR-Platform将场景合成分解为四个阶段:基于LLM的编排器,将用户意图转化为结构化的场景规划;资产锻造模块,通过LLM到CadQuery的合成检索缓存资产或生成新的3D几何形状;布局架构师模块,分配对象姿态并验证工业约束;以及桥接层,组装最终的MJCF场景并合并选定的机器人模型。该系统作为由九个服务组成的Docker堆栈部署,支持WebSocket进度流、MinIO支持的网格存储、基于Qdrant的语义资产检索、Redis作业状态以及InfluxDB遥测。利用涵盖611次成功LLM调用的30天生产遥测数据,SR-Platform生成包含五个对象的场景,端到端延迟中位数约为50秒,而缓存加速的场景完成时间约为30-40秒。资产锻造模块的首次尝试重试率为11.3%,且具有自动恢复能力,缓存资产检索则消除了对先前生成的对象类型进行逐对象LLM调用的需求。这些结果表明,智能体场景合成可以显著减少创建多样化机器人训练环境所需的人工工作量,使用户能够在一分钟内根据简单英语提示生成可执行的MuJoCo场景。

📊 核心分析

🎯 研究动机
- 机器人仿真环境生成是仿真机器人学习的**瓶颈(bottleneck)**,构建可训练的MuJoCo场景需要3D资产建模、MJCF规范、空间布局、碰撞避免和机器人模型集成等专业知识 - 现有方法依赖手工劳动和专家知识,缺乏从自然语言直接生成物理有效场景的自动化系统 - 用户难以快速创建多样化的机器人训练环境,限制了仿真学习的规模化应用
🔧 核心方法
- 提出**SR-Platform**,一种**agentic pipeline**,将场景合成分解为四个阶段:**LLM-based orchestrator** 将用户意图转换为结构化场景计划;**asset forge** 通过LLM-to-CadQuery合成检索缓存资产或生成新3D几何;**layout architect** 分配物体姿态并验证工业约束;**bridge layer** 组装最终MJCF场景并合并机器人模型 - 系统部署为九个服务的**Docker stack**,包含WebSocket进度流、MinIO网格存储、Qdrant语义资产检索、Redis作业状态和InfluxDB遥测 - 采用**缓存加速(cache acceleration)** 机制,通过语义检索重复使用已有资产,减少每物体的LLM调用
💡 核心创新
- **端到端自然语言驱动**:首次将**agentic系统(agentic system)** 应用于从自由形式自然语言直接生成可执行的物理有效MuJoCo仿真环境,无需人工专家干预 - **分解式流水线**:将场景合成划分为四个专业化阶段,每个阶段由LLM驱动并具有自动恢复机制(asset forge的11.3%首次重试率) - **缓存加速**:通过**语义资产检索(Qdrant)** 和缓存重用,为之前生成的物体类型消除每物体的LLM调用,显著降低延迟(缓存场景30-40s vs 非缓存50s) - **生产级部署架构**:作为九服务Docker栈部署,支持流式进度和遥测监控,具备工业实用性和可扩展性
🏆 总体贡献
- 为机器人学习领域提供了一种**自然语言驱动的仿真环境合成范式**,大幅降低创建多样训练环境的手工工作量 - 通过30天生产数据验证,**系统性能** 达到中位约50秒生成五物体场景,且缓存加速后约30-40秒,首次重试率11.3%,证明了方法的有效性和可靠性 - 提供了完整的Docker栈部署方案和技术细节,促进社区复现与后续研究