T
traeai
登录
返回首页
量子位

机器人运控训练步入分钟级时代!清华AIR开源UniLab:3分钟训好人形,速度暴涨10倍,Mac上也能跑

9.0Score
机器人运控训练步入分钟级时代!清华AIR开源UniLab:3分钟训好人形,速度暴涨10倍,Mac上也能跑

TL;DR · AI 摘要

清华大学AIR DISCOVER Lab开源UniLab,通过异构并行架构实现机器人运控训练效率提升3-10倍,支持Mac本地运行,3分钟完成人形机器人训练,标志着具身智能训练进入分钟级时代。

核心要点

  • UniLab采用CPU仿真+GPU训练的异构架构,实现3-10倍端到端训练加速。
  • UniLab支持Mac平台运行,利用Apple Silicon统一内存架构降低数据传输开销。
  • UniLab已部署至6类真机任务,涵盖四足行走、人形动作追踪及灵巧手操作,完成仿真到真机闭环验证。

结构提纲

按章节快速跳转。

  1. 介绍清华AIR团队推出UniLab,旨在解决传统机器人训练效率低的问题。

  2. UniLab采用异构并行架构,将仿真与策略训练解耦,提升整体吞吐效率。

  3. 通过CPU并行仿真和GPU梯度更新,实现计算资源高效利用,消除空转等待。

  4. 在相同硬件下,UniLab训练速度比传统方案快3至10倍,并完成真机部署验证。

  5. UniLab支持CUDA、Apple、AMD等后端,可在Mac上本地高效训练人形机器人。

  6. UniLab将扩展为通用机器人学习研究平台,持续迭代物理保真度评测与多模态策略。

思维导图

用一张图看清主题之间的关系。

查看大纲文本(无障碍 / 无 JS 友好)
  • UniLab机器人训练系统
    • 系统架构
      • 异构并行
      • CPU仿真
      • GPU训练
    • 性能突破
      • 3-10倍加速
      • 真机验证
    • 平台兼容
      • Mac支持
      • 多后端适配

金句 / Highlights

值得收藏与分享的关键句。

  • UniLab通过异构流水线重叠,大幅消除计算资源‘干等空转’,实现CPU与GPU协同高效运行。

    第3段

    ⬇︎ 下载 PNG𝕏 分享到 X
  • 在相同硬件条件下,UniLab达到相同目标奖励的端到端训练速度比传统方案快3至10倍。

    第4段

    ⬇︎ 下载 PNG𝕏 分享到 X
  • UniLab支持Mac平台运行,借助Apple Silicon统一内存架构,让本地训练人形机器人成为现实。

    第5段

    ⬇︎ 下载 PNG𝕏 分享到 X
#机器人#强化学习#具身智能#开源#异构计算
打开原文

< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

2026-06-02 11:57:21 来源:量子位

全新的机器人强化学习训练架构

清华AIR DISCOVER Lab投稿

量子位 | 公众号 QbitAI

在具身智能训练中,“把计算全部塞进GPU”似乎成了唯一的提速密码,机器人运控并行训练的框架,IsaacLab、MuJoCoPlayground、mjlab都默认遵循这一范式,这些系统都牢牢绑定在NVIDIA生态中。

清华大学智能产业研究院(AIR)DISCOVER Lab联合清华、上交、上海创智学院等多所高校和谋先飞技术、求之科技、原力灵机,正式推出了全新的机器人强化学习训练架构——UniLab

Image 1

团队另辟蹊径,通过大胆重构系统结构,打破了“GPU包揽全部”的潜规则,为具身智能打造了全新一代“CPU高效仿真+GPU策略训练”的异构高吞吐训练底座,在多项运控任务训练上实现了数倍效率提升。

布局全景:异构并行与多任务泛化架构

UniLab从底层重新组织了仿真、数据采集与策略学习之间的系统结构。

Image 2△UniLab系统架构图

核心突破1:异构流水线重叠,大幅消除计算资源“干等空转”

传统GPU管线将物理步进与策略学习同步串行执行,所有的计算都放在GPU上,导致显卡和多核CPU出现“一方计算、一方闲置”的资源闲置。

  • 并行解耦:UniLab采用异步异构架构,CPU侧利用多核算力并行运行MuJoCo或MotrixSim高保真物理引擎,GPU侧则专注于策略网络梯度更新。
  • 数据流高度重叠(Overlapping):利用共享内存建立无锁的运行时缓冲区。当GPU在执行当前Batch的网络更新时,CPU阵列已经在异步并发跑完下一步环境仿真,消除了昂贵的数据跨总线搬运延迟,榨干每一份硬件算力。

Image 3△UniLab单周期流水线时序

核心突破2:3至10倍端到端加速,异构解耦换来系统级提速

传统GPU管线将仿真和学习绑在同一块显卡上,资源互相争抢。

UniLab用实测数据证明,将仿真解耦到CPU侧并通过运行时协调,可以带来显著的端到端墙钟时间(Wall-clock Time)收益:

  • 3-10倍爆发提速:在相同硬件的基准测试中,UniLab达到相同目标奖励的端到端训练速度比传统方案快3至10倍。
  • 真机验证闭环:团队已将UniLab训练的策略成功部署到6类真机任务上,覆盖四足行走、人形全身运动追踪(含翻跟头、攀爬)以及灵巧手操作,完成了从仿真到真机的完整闭环验证。

Image 4△端到端训练效率对比曲线

核心突破3:不绑定CUDA,Mac也能本地高效调训人形机器人

UniLab彻底去除了对特定硬件的硬编码依赖,让机器人强化学习训练走向大众化:

  • 跨平台全后端兼容:原生支持CUDA、Apple、AMD及Intel等多种后端,无缝适配PPO、APPO、SAC、TD3等主流强化学习算法。
  • Mac训练神器:在Mac(Apple Silicon)平台上,UniLab借助统一内存架构(UMA)的低延迟特性,CPU仿真与GPU学习之间的数据传输无需跨越PCIe总线,传输开销大幅降低。让Mac本地训练人形机器人成为现实。
  • 全品类任务覆盖:基于统一的任务接口,UniLab不仅支持四足和人形行走,还完美覆盖高动态人形动作跟踪(G1 Flip、G1 WallFlip、Dance等)、高维接触的灵巧手精细操作(Sharpa hand),以及复杂的全身手脚协同(Loco-Manipulation)。
  • 超高效训练系统:4090+9950×3d的系统上,12秒训练好四足行走,3分钟人形G1学会走路,让机器人运控训练迈向“分钟级”时代。
  • 工业级成熟代码架构:工业开发级代码构建成熟度,零成本上手,3分钟本地配好环境,5分钟运行好第一个demo,面向AI-Native的开发协作模式让机器人模型和算法迁移“零摩擦”。

Image 5△多任务应用场景 collage

开源与未来探索

UniLab现已正式开源

未来项目将围绕接触密集型灵巧操作的物理保真度评测、算法benchmark、以及多模态触觉策略等方向持续迭代,将UniLab从一个高效训练系统进一步扩展为通用的机器人学习研究平台

项目主页:https://unilabsim.github.io

论文链接:https://arxiv.org/abs/2605.30313

代码仓库:https://github.com/unilabsim/UniLab

_版权所有,未经授权不得以任何形式转载及使用,违者必究。_

AI 可能会生成不准确的信息,请核实重要内容

机器人运控训练步入分钟级时代!清华AIR开源UniLab:3分钟训好人形,速度暴涨10倍,Mac上也能跑 | 量子位 | traeai