STABLE：基于语义-物理双系统的仿真就绪桌面布局生成

📝 论文摘要

从任务指令生成可仿真的桌面场景是具身人工智能领域中一个有趣且富有前景的研究方向。然而，现有任务到场景生成方法完全依赖大型语言模型预测场景布局，由于大型语言模型在3D空间推理方面的固有局限，不可避免地会产生物体碰撞或漂浮现象。本文提出STABLE——一种专为可仿真桌面场景生成设计的语义-物理双系统框架。STABLE由两个互补模块构成：（i）语义推理器，这是一个在结构化桌面场景数据集上微调的大型语言模型，用于从输入任务指令生成粗粒度布局；（ii）物理校正器，这是一种基于流的物理感知去噪模型，可输出姿态更新以优化布局，在确保场景物理合理性的同时保持与任务指令的语义一致性。STABLE采用渐进式生成范式：通过交替运行语义推理器和物理校正器，逐步将场景从任务关键物体扩展到背景物体。实验表明，STABLE能够成功生成严格符合任务指令的可仿真桌面场景，并在物理有效性上显著超越现有技术。

🎯 研究动机

- 现有**任务到场景生成(task-to-scene generation)** 方法完全依赖**大语言模型(Large Language Models, LLMs)** 预测场景布局，但由于LLMs在**3D空间推理(3D spatial reasoning)** 方面的固有限制，不可避免地产生物体**碰撞(collisions)** 或**漂浮(floating)** - 在**具身AI(Embodied AI)** 领域中，从任务指令生成**仿真就绪(simulation-ready)** 的桌面场景极具前景，但缺乏同时保证语义对齐和物理合理性的生成方法 - 研究背景：具身智能需要可交互的仿真环境，现有方法无法满足物理有效性要求

🔧 核心方法

- 提出**STABLE** 双系统，由**语义推理器(Semantic Reasoner)** 和**物理校正器(Physics Corrector)** 两个互补模块组成 - **语义推理器**：基于结构化桌面场景数据集**微调(fine-tuned)** 的LLM，从输入任务指令生成**粗略布局(coarse layouts)** - **物理校正器**：一种**物理感知的基于流的去噪模型(physics-aware flow-based denoising model)**，输出**姿态更新(pose updates)** 以细化布局，确保物理合理性同时保持语义对齐 - 采用**渐进生成范式(progressive generation paradigm)**：通过交替调用两个模块，从**任务关键物体(task-critical objects)** 逐步扩展到**背景物体(background objects)**

💡 核心创新

- **首创语义-物理双系统架构**：首次将**LLM语义推理** 与**物理感知去噪模型** 结合，弥补纯LLM方法在3D空间推理上的不足 - **渐进生成策略**：分阶段从关键物体到背景物体逐步生成，避免一次性布局中的全局冲突 - **物理校正器设计**：基于流的去噪模型能够输出**姿态更新**，在修复碰撞/漂浮的同时保留任务指令的语义约束，不同于现有单一LLM或规则方法

🏆 总体贡献

- 为**具身AI中的任务到场景生成** 提供了一种**语义-物理双系统范式**，显著提升了生成场景的**物理有效性(physical validity)** - 在实验上成功生成**严格符合任务指令** 且**仿真就绪** 的桌面场景，性能优于先前技术 - 提出的**渐进生成** 和**物理感知校正** 方法为后续研究提供了可借鉴的新思路，推动**仿真场景自动生成** 领域的发展

STABLE：基于语义-物理双系统的仿真就绪桌面布局生成
STABLE: Simulation-Ready Tabletop Layout Generation via a Semantics-Physics Dual System

📊 核心分析

STABLE：基于语义-物理双系统的仿真就绪桌面布局生成 STABLE: Simulation-Ready Tabletop Layout Generation via a Semantics-Physics Dual System

📊 核心分析

STABLE：基于语义-物理双系统的仿真就绪桌面布局生成
STABLE: Simulation-Ready Tabletop Layout Generation via a Semantics-Physics Dual System