该论文旨在解决基础视觉语言模型(Foundation Vision-Language Models)在机器人软件栈中实际应用的问题。研究背景是:虽然这些模型能提供比特定任务流程更丰富的语义感知,但其在机器人系统中的实际采用不仅取决于模型质量,更依赖于可复现的中间件集成。
论文开发了一个ROS 2包装器(ROS 2 wrapper),用于集成Florence-2视觉语言模型。具体方法包括:
- 通过三种互补的交互模式暴露模型功能:连续主题驱动处理(continuous topic-driven processing)、同步服务调用(synchronous service calls)和异步动作(asynchronous actions)
- 支持本地执行(local execution),提供原生安装和Docker容器部署两种方式
- 结合通用JSON输出和标准ROS 2消息绑定(message bindings)来处理检测导向任务(detection-oriented tasks)
- 进行了功能验证和多种GPU上的吞吐量研究(throughput study)
论文的核心创新点在于:
1. **首个针对Florence-2的ROS 2系统集成**:将统一多种视觉语言任务(如图说生成(captioning)、光学字符识别(optical character recognition)、开放词汇检测(open-vocabulary detection)、接地(grounding))的轻量级模型Florence-2首次集成到机器人操作系统ROS 2中
2. **多模式交互设计**:创新性地提供了三种互补的交互模式(主题、服务、动作),适应机器人系统中不同的计算和实时性需求
3. **本地化部署优化**:专门设计用于本地执行,证明了在消费级硬件(consumer grade hardware)上部署的可行性,降低了机器人系统对云服务的依赖
论文对该领域的整体贡献包括:
1. **提供了可复现的中间件解决方案**:为Florence-2模型在机器人系统中的实际应用提供了标准化的ROS 2集成框架
2. **降低了技术门槛**:通过支持消费级硬件部署和多种部署方式,使先进的视觉语言模型更易于在机器人系统中采用
3. **促进了机器人感知能力提升**:使机器人系统能够利用统一的视觉语言模型执行多种语义感知任务,替代传统的特定任务流程
4. **开源了完整实现**:公开了代码仓库,为社区提供了可直接使用的工具,加速相关研究和应用开发