← 返回论文列表

PHASOR:面向人形实体的相位锚定通用动作表示
PHASOR: Phase-Anchored Universal Action Representations for Humanoid Embodiments

作者: Kihyun Kim, Chaeyun Kim, Jongho Shin 等7人
arXiv: 2606.01851v1
分类: cs.RO
📝 论文摘要
学习一个好的动作嵌入空间是实现可扩展机器人策略学习的基础,但现有方法将动作潜在变量视为任务特定的中间产物,而非首要表征。由此产生的潜在变量缺乏结构、具有具体平台特异性,且与运动语义关联薄弱,限制了可解释性、可控性以及跨机器人的可迁移性。我们将动作嵌入空间本身定位为第一类设计目标,下游策略质量取决于表征质量。利用运动的内在周期性,我们将其分解为一个通过FFT参数系数捕捉循环结构的相位流形,以及一个将流形与周期性配置细节相联系的位置分支。结合运动语义蒸馏,这种分解结构产生了一个跨平台的运动流形,其设计具有可解释性和平台无关性。将多个人形机器人锚定到共享的人类预训练流形上,便能在不同平台间产生统一的动作嵌入空间,实现强大的跨平台检索能力,并在下游机器人任务中获得一致的性能提升。

📊 核心分析

🎯 研究动机
- 现有方法将动作潜在变量视为任务特定的中间变量,而不是**一等表示(first-class representations)**,导致嵌入空间非结构化、本体特定、与运动语义弱相关 - 限制了动作表示的可解释性、可控性和跨机器人**迁移性(transferability)** - 研究背景:可扩展的机器人策略学习需要高质量的动作嵌入空间,但当前方法未将其作为首要设计目标
🔧 核心方法
- 提出**PHASOR框架**,利用运动的固有周期性,将动作分解为**相位流形(phase manifold)** 和**姿态分支(pose branch)** - 相位流形通过**FFT参数化系数(FFT-parametric coefficients)** 捕获循环结构;姿态分支条件化该流形上的非周期配置细节 - 结合**运动语义蒸馏(motion-semantic distillation)**,产生跨本体的、可解释且本体无关的运动流形 - 将多个人形机器人锚定到一个共享的**人类预训练流形(human-pretrained manifold)** 上,从而跨平台统一动作嵌入空间
💡 核心创新
- **动作嵌入作为一等设计目标**:将动作嵌入空间本身定位为设计的首要对象,下游策略质量源自表示质量,而非仅当中间步骤 - **周期分解实现本体无关**:通过相位+姿态的分解结构,利用运动周期性自然解耦本体特异性和通用运动语义 - **人类预训练锚定跨本体对齐**:将不同人形机器人的动作嵌入锚定到共享的人类运动流形,实现本体无关的统一空间 - **可解释的嵌入**:相位流形结构使嵌入具有明确的物理含义(周期性),提升可解释性
🏆 总体贡献
- 提出一种新颖的**跨本体动作表示范式**,统一不同人形机器人的动作嵌入空间 - 在跨本体检索任务上表现出色,并在下游机器人任务上实现一致性能增益 - 为机器人策略学习提供了基于**运动周期性(motion periodicity)** 的结构化表示理论基础,促进可解释性和迁移性