- 大型语言模型(LLM)正被考虑部署为**机器人健康助手(robotic health attendant)** 的控制组件,但其在此场景下的安全性尚缺乏系统评估
- 现有研究未针对医疗伦理规范定义有害指令,且缺乏对LLM在不同行为类别下违规率的量化分析
- 研究背景:随着LLM在医疗机器人中的应用潜力增大,需要建立安全评估标准来避免潜在风险
- 创建了包含**270个有害指令** 的数据集,覆盖基于**美国医学会医学伦理原则(AMA Principles of Medical Ethics)** 的九类禁止行为
- 在**机器人健康助手框架(Robotic Health Attendant framework)** 的模拟环境中评估**72个LLM** 的违规率
- 分析模型大小、发布日期、开放权重/专有模型、医学领域微调(fine-tuning)及提示防御策略对安全性能的影响
- **首次系统评估**:针对机器人健康助手控制场景,构建了基于医学伦理原则的有害指令基准数据集
- **揭示违规模式**:发现表面合理的指令(如设备操作延误、紧急情况延迟)比明显破坏性指令更难被拒绝,违规率差异显著
- **关键因素发现**:开放权重模型的安全性能主要由**模型大小和发布日期** 决定,专有模型安全性远高于开放权重模型(中位违规率23.7% vs 72.8%)
- **负面结论**:医学领域微调未带来显著安全提升,提示防御策略效果有限,无法达到安全临床部署要求
- 为LLM在医疗机器人控制中的安全性评估提供了首个**标准化基准数据集和评估框架**
- 定量证明了当前LLM在机器人健康助手场景中普遍存在高违规率(平均54.4%),半数以上模型超过50%
- 明确指出安全性必须作为LLM开发和部署的**首要标准(first-class criterion)**,而非事后修补
- 通过揭示模型类型、微调策略和防御方法的局限性,为未来安全LLM在医疗机器人中的研究指明了方向