- 现有**任务到场景生成(task-to-scene generation)** 方法完全依赖**大语言模型(Large Language Models, LLMs)** 预测场景布局,但由于LLMs在**3D空间推理(3D spatial reasoning)** 方面的固有限制,不可避免地产生物体**碰撞(collisions)** 或**漂浮(floating)**
- 在**具身AI(Embodied AI)** 领域中,从任务指令生成**仿真就绪(simulation-ready)** 的桌面场景极具前景,但缺乏同时保证语义对齐和物理合理性的生成方法
- 研究背景:具身智能需要可交互的仿真环境,现有方法无法满足物理有效性要求
- 提出**STABLE** 双系统,由**语义推理器(Semantic Reasoner)** 和**物理校正器(Physics Corrector)** 两个互补模块组成
- **语义推理器**:基于结构化桌面场景数据集**微调(fine-tuned)** 的LLM,从输入任务指令生成**粗略布局(coarse layouts)**
- **物理校正器**:一种**物理感知的基于流的去噪模型(physics-aware flow-based denoising model)**,输出**姿态更新(pose updates)** 以细化布局,确保物理合理性同时保持语义对齐
- 采用**渐进生成范式(progressive generation paradigm)**:通过交替调用两个模块,从**任务关键物体(task-critical objects)** 逐步扩展到**背景物体(background objects)**
- **首创语义-物理双系统架构**:首次将**LLM语义推理** 与**物理感知去噪模型** 结合,弥补纯LLM方法在3D空间推理上的不足
- **渐进生成策略**:分阶段从关键物体到背景物体逐步生成,避免一次性布局中的全局冲突
- **物理校正器设计**:基于流的去噪模型能够输出**姿态更新**,在修复碰撞/漂浮的同时保留任务指令的语义约束,不同于现有单一LLM或规则方法
- 为**具身AI中的任务到场景生成** 提供了一种**语义-物理双系统范式**,显著提升了生成场景的**物理有效性(physical validity)**
- 在实验上成功生成**严格符合任务指令** 且**仿真就绪** 的桌面场景,性能优于先前技术
- 提出的**渐进生成** 和**物理感知校正** 方法为后续研究提供了可借鉴的新思路,推动**仿真场景自动生成** 领域的发展