- 现有**基础模型(foundation models)** 在社交敏感领域(如教育、心理健康、护理)中部署时,失败具有**累积性(cumulative)** 和**上下文依赖性(context-dependent)**,但缺乏可执行的**行为保证(behavioral guarantees)**
- 已有防护方法(如训练时对齐、提示、解码约束、事后审核)主要提供经验性风险降低,而非形式化的约束,且将**安全性(safety)** 视为个体输出属性,而非**交互轨迹(interaction trajectories)** 的持续控制
- 亟需一种能将安全控制从静态输出扩展到**运行时(runtime)** 动态交互场景的框架,以处理环境不确定性和社会语境多样性
- 从**机器人学(robotics)** 中引入形式化构造,将防护问题重新定义为对**交互轨迹(interaction trajectories)** 的运行时行为控制
- 提出了**Grounded Observer框架**,在**不确定闭环系统(uncertain closed-loop systems)** 中强制执行约束,通过运行时干预来抑制向不良交互状态的漂移
- 框架应用于三个真实部署场景:**闲聊(small talk)**、**家庭自闭症治疗(in-home autism therapy)**、**学校行为降级(behavioral de-escalation)**,并针对不同社会语境进行自适应调整
- **范式转变**:首次将**防护(guardrails)** 从静态输出过滤提升为**运行时行为控制(runtime behavioral control)**,借鉴机器人学的形式化约束而非经验性风险降低
- **轨迹级安全**:与现有工作将安全视为**个体输出(individual outputs)** 不同,本工作将安全视为**交互轨迹(interaction trajectories)** 的连续属性,处理累积和上下文依赖的失败
- **跨领域验证**:在三个截然不同的社交敏感场景中展示通用性与有效性,证明框架能适应多样社会语境并实现运行时干预
- 为社交敏感领域的基础模型部署提供了一种**机器人学启发的形式化防护范式(robotics-inspired formal guardrail paradigm)**,推动从经验防护向可执行保证的转变
- 提出了**Grounded Observer框架**,通过运行时行为控制实现**更强的行为保证(stronger behavioral guarantees)**,并在真实应用中验证了有效性
- 讨论了框架的扩展方向,并提出了通向**更强保证(stronger guarantees)** 的研究路径,为后续工作奠定基础