Mag-VLA：用于双臂磁驱动微机器人操作的视觉-语言-动作模型

📝 论文摘要

磁驱动微型机器人已被用作微尺度下的无线、非接触操控工具，这使其在微创应用中具有广阔前景。然而，由于间接驱动、有限的感知能力以及非线性磁相互作用，其控制仍然具有挑战性。在本研究中，我们提出了Mag-VLA——一种视觉-语言-动作（VLA）模型，用于使用两个安装有磁铁的机械臂进行动态磁场构建，从而实现灵巧的磁驱动微型机器人操控。双臂协调使得诸如微型机器人重新定向等单臂难以或无法实现的能力成为可能，但同时也引入了耦合控制挑战——策略必须在共享工作空间内为两个执行器生成协调轨迹。我们的框架采用低秩适配（LoRA）对Qwen2.5-VL-7B骨干网络进行适配，以处理视觉观测和语言指令，从而进行动作预测。为捕捉任务进展，我们引入了一个运动感知的阶段分类器，以及一个基于阶段条件的动作分块变换器（ACT）解码器，用于实现时间上连贯的多步控制。我们进一步构建了一个远程操作的磁驱动微型机器人操控数据集，涵盖三种任务配置。消融研究表明，基于ACT的解码器显著优于其他生成式动作头。在实际机器人实验中，Mag-VLA在所有任务中达到了90%的接近成功率，随着任务难度增加，运输成功率分别为80%、70%和50%。这些结果表明，层次化VLA建模为磁驱动微型机器人操控提供了一个有前景的框架。

🎯 研究动机

- 磁驱动微机器人(magnetically actuated microrobot)在微尺度非接触操作中具有前景，但存在间接驱动、传感有限和非线性磁交互等控制挑战 - 双臂协调能够实现单臂难以完成的微机器人重新定向(reorientation)，但引入了共享工作空间内的耦合控制难题，策略需生成两个执行器的协调轨迹 - 现有方法难以同时应对非线性磁场交互和双臂协同的时序控制需求，缺乏层次化建模方案

🔧 核心方法

- 提出**Mag-VLA** 框架，基于**Qwen2.5-VL-7B** 视觉-语言骨干，使用**低秩适配(Low-Rank Adaptation, LoRA)** 进行参数高效微调，处理视觉观测和语言指令以预测动作 - 引入**运动感知相分类器(motion-aware phase classifier)** 识别任务进展阶段，并结合**相条件动作分块Transformer(Phase-conditioned Action Chunking Transformer, ACT)** 解码器生成时序连贯的多步控制序列 - 构建**遥操作数据集(teleoperated dataset)** 覆盖三种任务配置，用于训练和评估

💡 核心创新

- **首创性**：首次将**视觉-语言-动作(Vision-Language-Action, VLA)** 层次化建模应用于磁驱动微机器人双臂灵巧操作，实现复杂任务（如重新定向） - **结构创新**：提出**运动感知相分类器** 动态感知任务阶段，配合**相条件ACT解码器** 生成时序一致的动作块，优于其他生成式动作头（如直接回归） - **实验验证**：在真实机器人上达到90%接近成功率和80%/70%/50%（按难度递增）的运输成功率，证明层次化VLA框架的有效性

🏆 总体贡献

- 为磁驱动微机器人操作提供了一种**分层VLA建模(hierarchical VLA modeling)** 新范式，整合视觉、语言和时序动作生成 - 通过消融实验证实**动作分块Transformer(ACT)** 在微机器人控制中的优越性，指导后续动作头设计 - 构建并公开（隐含）**遥操作数据集**，填补磁微机器人灵巧操作数据空白，促进该领域可复现研究

Mag-VLA：用于双臂磁驱动微机器人操作的视觉-语言-动作模型
Mag-VLA: Vision-Language-Action Model for Bimanual Magnetically Actuated Microrobot Manipulation

📊 核心分析

Mag-VLA：用于双臂磁驱动微机器人操作的视觉-语言-动作模型 Mag-VLA: Vision-Language-Action Model for Bimanual Magnetically Actuated Microrobot Manipulation

📊 核心分析

Mag-VLA：用于双臂磁驱动微机器人操作的视觉-语言-动作模型
Mag-VLA: Vision-Language-Action Model for Bimanual Magnetically Actuated Microrobot Manipulation