该论文旨在解决工业环境中工具密集型工作流的一个常见瓶颈:专家知识虽然有效但难以规模化扩展,且当操作流程在不同操作员和会话间临时重构时,执行质量会下降。研究背景是工业人机协作领域,需要更自然、可扩展且能保证执行一致性的交互方式。
论文提出了名为EBuddy的语音引导工作流编排器,其核心方法包括:
- 将专家实践操作化为一个由有限状态机(Finite State Machine, FSM)驱动的应用程序,在运行时提供可解释的决策框架(当前状态和允许的操作)。
- 通过自动语音识别(Automatic Speech Recognition, ASR)和意图理解实现全语音交互。
- 利用模块化工作流构件协调异构资源,包括GUI驱动软件和协作机器人(collaborative robot)。
- 在面向能量沉积(Directed Energy Deposition, DED)的叶轮叶片检测与修复准备这一工业试点中,通过人机协作实现验证。
论文的核心创新点在于:
- **状态约束的语音交互框架**:将工作流明确建模为有限状态机(FSM),使语音请求能在状态约束的上下文中被解释,系统同时执行并监控相应的工具交互,这解决了临时重构导致的执行质量下降问题。
- **可解释的运行时决策支持**:系统在运行时为操作员提供明确的当前状态和允许操作的可视化/语音引导,降低了认知负担并保证了流程一致性,与传统的、非结构化的语音指令系统相比,提供了更强的过程保障。
- **异构资源的模块化编排**:能够统一协调传统GUI软件和物理协作机器人等异构资源,并通过全语音接口进行控制,实现了更自然、无缝的人机协作体验。
论文对该领域的总体贡献包括:
- 提出了一个实用的、基于有限状态机(FSM)和语音交互的工作流编排系统(EBuddy),为工业人机协作提供了一种可扩展、可重复且低操作负担的新范式。
- 通过一个真实的工业试点(叶轮修复准备)验证了其有效性,结果表明其在入职培训、3D扫描与处理、修复程序生成等端到端流程中显著缩短了时间,同时保持了可重复性和低操作员负担。
- 为将隐性专家知识转化为可操作、可监控的数字化工作流提供了具体的技术路径和系统实现,有助于推动工业环境向更智能、更人性化的协作模式发展。