学习用于跨具身机器人控制的统一潜空间

张开发
2026/4/13 11:15:24 15 分钟阅读

分享文章

学习用于跨具身机器人控制的统一潜空间
26年1月来自奥地利维也纳技术大学和德国航空航天中心 (DLR) 机器人与机电一体化研究所 (DLR)的论文“Learning a Unified Latent Space for Cross-Embodiment Robot Control”。本文提出一种可扩展的跨具身人形机器人控制框架该框架通过学习一个共享的潜表征来统一人类和各种人形平台包括单臂、双臂和腿式人形机器人的运动。其方法分两个阶段进行首先构建一个解耦的潜空间利用对比学习捕获不同身体部位的局部运动模式从而即使在形态各异的机器人之间也能实现精确灵活的运动重定向。为了增强不同具身之间的对齐引入定制的相似性度量该度量结合关键部位例如手臂的关节旋转和末端执行器定位。然后仅使用人类数据直接在该潜空间内训练一个目标导向的控制策略。利用条件变分自编码器该策略能够学习预测由预期目标方向引导的潜空间位移。训练好的策略可以直接部署到多个机器人上无需任何调整。此外其方法仅需学习一个轻量级的、机器人特定的嵌入层即可高效地将新机器人添加到潜空间中。学习的潜策略也可以直接应用于新机器人。实验结果表明本文方法能够在各种人形机器人平台上实现鲁棒、可扩展且与机器人本体无关的控制。通过统一的界面控制各种人形机器人平台一直是机器人领域的长期目标。然而由于机器人形态、自由度和运动学约束的巨大差异实现这一目标极具挑战性。可扩展泛化的关键在于开发能够无缝迁移到不同形态的控制策略而无需重新训练或进行平台特定的微调。本文学习一个统一的共享潜空间来解决跨形态人形机器人控制的问题。在该潜空间中训练的控制策略可以部署到任何在该空间中编码的机器人上。机器人学习领域的最新进展特别是跨域模仿学习[1]使得跨不同形态的机器人控制更加灵活和适应性更强。弥合形态差异的常用方法是学习任务相关的、领域不变的表示[2]–[4]。例如为了使机器人能够从人类演示中学习操作技能先前的研究[5]–[7]将人类视频和机器人演示之间的跨领域技能表征进行对齐。然而这些方法通常需要来自两个领域的大量配对演示数据这限制了可扩展性并阻碍向新的、未见过的平台迁移——考虑到机器人形态的快速多样化这一点变得越来越重要。除了任务相关的特征提取之外弥合具身性差距的另一个有前景的策略是构建具身性之间的共享潜空间其中语义相似的动作被映射到邻近点而不管其来源领域如何。这方面的早期研究[8]–[10]侧重于学习用于将动作从人类转换到机器人或动画角色的共享表征但严重依赖于手动收集的配对数据集。为了克服这一数据瓶颈Choi[11]提出一种自监督配对数据生成技术实现了构建领域间对应关系的自动化过程。最近Yan[12]提出一种对比学习方法来发现共享的潜空间从而增强人类和机器人之间运动重定向的表达能力和流畅性。然而先前的工作仅关注从人类到特定机器人形态的重定向。主要目标是学习跨不同形态的统一潜空间以便后续使用统一的策略来控制多个机器人。本文旨在解决跨形态机器人控制问题目标是开发一个能够跨不同机器人形态运行的单一控制框架。具体而言目标是实现两个关键功能1学习一个能够捕捉跨不同形态运动语义的共享潜表示2在该共享空间内训练一个目标导向的控制策略该策略可以直接部署到所有在该共享空间中编码的机器人。本文将跨具身机器人控制问题视为一个两阶段问题。其方法首先学习不同机器人之间的统一潜空间。然后将多机器人控制问题建模为控制该共享潜空间。问​​题描述为了在多机器人系统中实现对不同机器人本体的控制方法包含两个主要部分1学习所有机器人共享的表征2在此共享空间内训练控制策略。本文通过使机器人能够根据此潜表征重新定位其他本体的运动来解决学习共享潜空间的挑战。其基于 ImitationNet [12]利用其基于无监督对比学习的方法来学习共享的潜空间。与仅限于人机迁移的原始方法不同方法将该潜空间推广到任意形态从而促进更广泛的跨平台运动重定向。分段-觉察潜空间和相似性度量先前的方法 [10]、[12] 使用单一的潜空间来表示全身运动。然而这种设计会导致形态不同的个体之间映射关系模糊。例如ATLAS 机器人拥有可活动的胳膊、腿和躯干而 H1 机器人的躯干活动范围有限TIAGO 机器人则仅限于手臂运动。为了解决这一局限性本文提出将潜空间解耦为不同身体部位的独立子空间。具体而言将人体分割成五个部分左臂LA、右臂RA、躯干TK、左腿LL和右腿RL。每个部分都使用其专属的潜空间进行建模从而更好地捕捉局部运动特征并适应肢体结构不对称或部分肢体的个体。潜空间的分解还允许在每个子空间内使用定制的相似性度量进行对比学习。例如末端执行器的位置在机器人操作等应用中至关重要。相比之下模仿肢体旋转对于躯干和腿部在运动重定向过程中保持视觉保真度至关重要。因此为手臂部分设计一种混合相似性度量该度量同时考虑肢体旋转和末端执行器位置而对其他身体部分则应用了基于旋转的相似性度量。为了确保不同臂长和坐标系的实施例之间的一致性首先将每个 EE 位置表示为相对于肩部坐标系的位置然后将其除以相应的臂长进行归一化。对于臂潜子空间LA 和 RA将相似度计算为旋转距离和基于 EE 的距离的加权和。对于其余身体部位TK、LL、RL仅依赖于基于旋转的度量。这种模块化相似性框架能够更精确地对齐具有不同能力的具身之间运动最终提高跨具身运动重定向的质量。学习统一的潜空间为了实现跨多种具身的运动重定向训练一个人类和多种机器人类型共享的统一潜表示。该共享潜空间使用对比学习进行优化对比学习独立应用于每个解耦的身体部位子空间。其核心思想是将语义相似的运动无论具身如何紧密地嵌入到各自的潜子空间中。如图所示其架构学习一个共享的潜空间该空间统一不同载体包括人类和各种机器人的运动表征。为了精确建模局部运动模式将潜空间解耦为五个子空间分别对应于不同的身体部位左臂 (LA)、右臂 (RA)、躯干 (TK)、左腿 (LL) 和右腿 (RL)。该模型包含一个人类编码器 (E_h)、一个跨具身编码器 (E_X) 和一个跨具身解码器 (D_X)。为了适应不同机器人平台姿态维度的差异每个机器人都被分配一个可学习的、机器人特定的嵌入层 E_r该嵌入层将原始姿态表征投影到共享的跨具身特征空间。相反D_r 则是将原始姿态表征逆映射回原始姿态空间。在训练过程中每个数据批次都包含来自人类和机器人域的姿态样本。对于每个子空间应用对比学习使用由来自任意具身的姿态组成的随机采样三元组。一个三元组包含一个锚样本、一个语义相似的正样本和一个语义不太相似的负样本。其用三元组损失[13]训练潜空间。直观地说对比损失L_contrastive鼓励正样本比负样本更接近锚点至少α。在实验中设置α 0.05。为了训练解码器 D_X 以从潜空间中准确地重建机器人运动应用重建损失 L_rec。该损失确保解码输出与原始输入机器人姿态高度匹配。重建损失用于规范潜空间到姿态的映射确保解码器在编码和解码过程中保持对输入运动的保真度。然而对于人体运动数据 x_H由于缺乏配对的人机数据直接重建是不可能的。因此采用一种受 ImitationNet [12] 中引入的循环损失启发的潜在一致性损失 L_ltc。该损失鼓励解码器生成在潜空间中与原始人体运动保持一致性的机器人运动。这种潜在一致性目标确保通过解码人体嵌入生成的运动能够被重新编码从而产生接近原始人体潜空间的表示。它有效地对齐人和机器人领域从而提高跨具身运动重定向的质量。最后为了增强重定向运动的时间一致性引入时间损失函数 L_temporal该损失函数专注于对齐人体和机器人运动之间的末端执行器速度。具体来说考虑两个连续的人体姿态 xt_H 和 xt1_H以及它们对应的重定向机器人姿态 xt_A 和 xt1_A其中 A 表示目标机器人具身。从这些连续帧中计算出人手速度 vhand_H 和机器人 EE 速度 vee_A。时间损失函数定义为这些速度矢量之间的 L2 距离。为了进行端到端的模型训练将所有先前定义的目标函数合并为一个加权损失函数L_total λ_c L_contrastive λ_rec Lrec λ_ltc L_ltc λ_temp L_temporal其中根据经验设定 λ_c 10λ_rec 5λ_ltc 1λ_temp 0.1。通过最小化 L_total模型学习一个统一的潜空间在该空间中运动可以在各种不同的形态上进行精确且平滑的重定向。这个共享空间能够在潜在域内训练控制策略并将其无缝部署到多个机器人上而无需考虑它们的结构差异。添加新机器人该架构旨在通过在所有个体间保持共享的潜空间和网络组件从而实现高效的可扩展性。核心编码器和解码器——E_h、E_X 和 D_X——在多个机器人和人类之间进行联合训练而每个机器人则保留其自身可学习的嵌入层以应对个体间的差异。这种模块化设计使得新机器人能够无缝集成到系统中。具体而言一旦模型的共享组件完成预训练就可以冻结网络 E_h、E_X 和 D_X仅针对新机器人训练嵌入层E_r 和 D_r。这种方法使得新机器人能够与现有的潜空间保持一致而无需重新训练整个模型从而降低计算成本和训练时间。因此本框架支持可扩展地部署到新的机器人平台同时保持从潜空间中学习到的统一控制策略的泛化性和鲁棒性。潜空间机器人控制提出的跨具身重定向框架将人和机器人的运动投影到一个统一的潜空间中其中语义相似的跨具身运动被编码得非常接近。这种共享表示实现机器人控制的高级抽象无需指定关节指令即可通过遍历该潜空间来调节机器人行为。为了充分利用这一能力提出一种目标导向的运动生成策略该策略直接在潜空间中运行并完全基于人类数据进行训练。至关重要的是该策略无需任何进一步的微调即可部署到多个机器人平台。专注于机器人领域一个实用且应用广泛的控制目标——生成引导机器人电子眼到达期望目标位置的机械臂运动。用 c-VAE 架构对该任务进行建模其中运动生成由控制信号引导。在训练过程中用人类手部位置来提取目标信号。由于解耦潜空间的模块化结构该策略仅针对相关的子空间例如LA 或 RA从而实现高效且专注的机械臂控制学习。训练过程如下从人体运动序列 X1:T_H 中采样三帧xt_H、xt1_H 和未来的目标帧 xt_G_H。从这些帧中提取手部位置 pt_hand 和 pt_G_hand并计算指向目标的平均速度矢量 v_ee (pt_G_hand − pt_hand) / (t_G − t)。v_ee 作为意图信号为生成未来的运动提供方向指导。同时人体编码器 E_h 将姿态 xt_H 和 xt1_H 分别编码为潜表示 z_t 和 z_t1。模型并非重建绝对姿态而是学习预测潜位移矢量 d_t z_t1 − z_t该矢量捕捉连续帧之间的运动动态。预测这些增量也受益于序列数据集固有的归纳偏置这有助于提高样本效率和泛化能力正如先前工作 [14]–[16] 中所述。其架构设计如图所示以 z_t 和 v_ee 为条件确保运动生成同时受到当前姿态和目标导向意图的影响。c-VAE 的总体训练目标由重构损失和 KL 散度正则化组成L_cvae L_reconstruction λ_KL L_KL 。重构损失 L_reconstruction ||d_t − dˆ_t ||2_2 鼓励忠实地再现人体运动。KL 散度项 L_KL D_KL(N(0,I) ||N(μ,σ)) 将编码器的输出分布与标准高斯先验对齐。 μ 和 σ 分别是潜分布的预测均值和方差。设置 λ_KL 10−4 以确保正则化项支持重建目标但不会主导该目标。在推理阶段我们部署学习的策略来生成机器人朝向用户指定目标的运动。该过程始于用户提供目标 EE 位置 pT_ee 和时间范围 T。给定时间步 t 的当前 EE 位置 pt_ee计算目标导向的速度向量 v_ee (pT_ee−pt_ee)/(T−t)。同时当前机器人位姿被编码到潜空间中表示为 z_t。解码器以 z_t 和意图向量 v_ee 为条件并结合采样到的潜噪声预测表示到下一个状态转换的潜位移 dˆ_t。下一个潜表示计算公式为 z_t1 z_t dˆ_t。重要的是在每个步骤中意图向量 v_ee 会根据预测的 EE 位置和原始目标动态更新从而使策略能够适应实时变化并保持目标导向的运动。该过程以自回归的方式执行迭代生成一系列潜状态这些潜状态随后被解码为机器人关节构型。技术实现1学习统一的潜空间架构中的两个编码器E_h 和 E_X以及解码器D_X均采用多层感知器MLP实现。每个 MLP 由 8 个全连接层组成每层包含 256 个神经元。用指数线性单元ELU[17] 作为中间层的激活函数并在输出层应用双曲正切Tanh激活函数来约束输出范围。每个潜子空间均为 16 维取值范围为 -1 到 1。为了处理不同机器人姿态维度上的差异每个机器人都配备一个可学习的嵌入层 E_r该嵌入层将其关节空间投影到 1024 维的特征空间。逆嵌入层 D_r 用于将这种共享表示映射回机器人特定的关节空间从而实现原始姿态的重建。潜空间机器人控制类似地c-VAE 中的编码器和解码器网络也实现为多层感知器 (MLP)每个网络包含 8 个线性层。除输出层外每一层都使用 ELU 激活函数输出层不使用激活函数以允许无界输出。编码器输出一个 32 维潜在分布表示训练过程中从中采样潜变量高斯分布的均值和方差参数。训练细节用 PyTorch 框架开发并训练方法。优化方面用 Adam [18] 优化器学习率为 10⁻³。模型在 NVIDIA A4000 GPU 上以 10⁵ 的批大小进行训练。数据集用 HumanML3D 数据集 [19]其中包含 29,224 个不同的人体运动序列涵盖超过 400 万个人体姿态。值得注意的是其方法不需要任何机器人数据采集。相反在训练过程中从机器人各自的关节空间中均匀随机采样关节构型并使用正向运动学FK计算相应的机器人位姿。对于FK计算采用PyTorch-Kinematics [20]它仅使用机器人URDF即可高效地在GPU上并行化FK计算。这种设计使得从数据采样到神经网络更新的整个训练流程都能完全在GPU上执行从而提高了训练效率。在每个训练步骤中会采样超过105个新的机器人位姿并在更新网络后立即丢弃这些位姿从而确保多样化且无偏的暴露而无需存储数据集。在整个训练过程中每个机器人模型都会产生数十亿个位姿。这种大规模的合成采样使模型能够全面探索机器人的运动学空间并有助于形成平滑且富有表现力的潜空间。基线为了评估框架的性能在三个关键场景下对其进行评估人机运动重定向、跨具身泛化和机器人末端执行器控制。每个基线的选择都旨在突出方法能力的特定方面——表征效率、具身可扩展性和控制精度。人机运动重定向首先将方法与 ImitationNet [12] 进行比较。ImitationNet 是一种基于深度学习的方法最初设计用于将人类演示的运动重定向到双臂 TIAGo 机器人。与支持多种具身的统一潜空间不同ImitationNet 为单个机器人学习人类共享的潜空间。为了公平评估为每个目标机器人训练单独的 ImitationNet 模型例如人机到 JVRC 和人机到 H1。此比较突显共享潜表征的可扩展性和泛化能力它能够在单个模型中实现所有机器人的联合学习。跨身体形态运动重定向为了评解耦潜在空间的效果将其与在其他条件完全相同的设置下训练的整体式全身潜表征进行比较。假设将潜空间分离成语义一致的子空间例如手臂、腿部、躯干可以提供更好的模块化和具身不变性——这在映射不同形态之间的运动时至关重要。通过切换框架的解耦和耦合变型分离并量化这种架构选择的影响。如图展示运动编辑功能在所示示例中将 TIAGO 的手臂运动与 ATLAS 的躯干和腿部运动无缝拼接在一起从而合成一个新的 ATLAS 运动——在潜空间内实现无缝融合。如图所示展示运动合成的更多示例其中目标域运动是通过组合来自不同实现的源域运动生成的。合成运动的高质量视觉一致性突显跨域运动重定向的有效性以及学习的共享潜空间强大解耦能力。

更多文章