开放手术中机器人辅助的模仿学习：缝合跟随的多策略评估

📝 论文摘要

本研究首次评估了通用模仿学习在开腹手术中实现外科医生-机器人协同辅助的应用，聚焦于缝合跟随任务：即助手在每针缝合中执行的抓取-牵拉-释放动作。我们在开源机器人臂上采集了160次遥操作演示（32,374帧），对四种架构各异的模仿学习策略（ACT、扩散策略、SmolVLA、$π_0$）进行了基准测试，涵盖28个训练模型，在32种配置下沿三个临床相关维度（数据集规模、相机视角、背景变化）进行评估。结果表明，在理想条件下，四种策略的任务成功率达50%-75%，深度误差是所有架构共有的主要失败模式。在所有策略中，$π_0$凭借预训练的视觉-语言骨干网络取得了最优结果，展现出更高的数据效率、更强的背景变化鲁棒性，以及与手术工作流程兼容的更平滑轨迹。将其部署于外科医生-机器人缝合试验中，$π_0$实现了92%的缝合完成率。这些发现确立了开腹手术中的协同机器人辅助作为模仿学习的可行目标，并强调了深度感知与末端执行器设计是临床转化的关键优先事项。

🎯 研究动机

- 首次评估通用模仿学习在**开腹手术(open surgery)** 中**外科医生-机器人协作辅助(surgeon-robot collaborative assistance)** 的可行性 - 针对**缝合跟随(suture following)** 任务：助手在每个缝合点执行的抓取-拉动-释放(grab-pull-release)动作 - 现有研究缺乏对多样化模仿学习策略在临床相关条件下的系统比较

🔧 核心方法

- 收集**160次遥操作演示(teleoperated demonstrations)**，共**32,374帧**，基于**开源机器人臂(open-source robot arm)** - 基准测试四种架构多样的模仿学习策略：**ACT(动作分块变换器)**、**Diffusion Policy(扩散策略)**、**SmolVLA(小型视觉-语言-动作模型)**、**π₀(π-zero)** - 训练**28个模型**，在**32种配置** 下沿三个临床维度评估：**数据集大小(dataset size)**、**摄像头视角(camera viewpoint)**、**背景变化(background variation)** - 将表现最佳的**π₀** 部署于**外科医生-机器人缝合试验(surgeon-robot suturing trial)**

💡 核心创新

- **首次** 在开腹手术协作辅助场景中系统性比较四种通用模仿学习策略，填补领域空白 - 发现**深度误差(depth error)** 是所有架构的主要失效模式，为后续研究指明方向 - **π₀** 凭借**预训练的视觉-语言骨干(pretrained vision-language backbone)**，在**数据效率(data efficiency)**、**背景鲁棒性(background robustness)** 和**轨迹平滑性(trajectory smoothness)** 上显著优于其他策略 - 在真实外科缝合试验中达到**92%的缝合完成率(stitch completion rate)**，验证临床可行性

🏆 总体贡献

- 建立了**开腹手术中机器人协作辅助** 作为模仿学习可行目标的基线评估框架 - 通过多策略、多配置的对比实验，提供了**数据规模、视角变化、背景干扰** 对性能影响的系统经验 - 强调**深度感知(depth perception)** 和**末端执行器设计(end-effector design)** 是临床转化的关键优先级 - 为后续研究提供了开源数据集和模型比较结果，促进领域标准化

开放手术中机器人辅助的模仿学习：缝合跟随的多策略评估
Imitation Learning for Robot Assistance in Open Surgery: A Multi-Policy Evaluation on Suture Following

📊 核心分析

开放手术中机器人辅助的模仿学习：缝合跟随的多策略评估 Imitation Learning for Robot Assistance in Open Surgery: A Multi-Policy Evaluation on Suture Following

📊 核心分析

开放手术中机器人辅助的模仿学习：缝合跟随的多策略评估
Imitation Learning for Robot Assistance in Open Surgery: A Multi-Policy Evaluation on Suture Following