T
traeai
登录
返回首页
Hunyuan(@TXhunyuan)

1、Most RL stacks are built for one modality. UniRL applies a single post-training loop — generate → ...

8.5Score

TL;DR · AI 摘要

UniRL 是一个统一的强化学习框架,支持多种模态和模型,通过单一训练循环实现跨模型家族的训练。

核心要点

  • UniRL 使用单一训练循环(generate → score → advantage → update → sync)支持多种模态和模型。
  • FlowDPPO 和 DRPO 是 UniRL 中的两个原创算法,分别用于流模型和大语言模型的强化学习。
  • UniRL 支持三种部署模式,可通过单一配置开关进行调整。

结构提纲

按章节快速跳转。

  1. 当前大多数强化学习框架仅适用于单一模态,而 UniRL 通过统一的训练循环支持多种模态。

  2. UniRL 使用 generate → score → advantage → update → sync 的单一训练循环,适用于多种模型家族。

  3. 模型和算法是两个独立的轴,UniRL 的覆盖范围是模型 × 算法的乘积,而非固定配方。

  4. UniRL 支持文本→图像、文本/图像→视频、视觉-语言、文本-only LLM 和 VLM 等多种模态和模型。

  5. UniRL 支持可插拔的 rollout 引擎和三种部署模式,可通过单一配置开关进行调整。

  6. UniRL 引入了 FlowDPPODRPO 两种原创算法,分别用于流模型和大语言模型的强化学习。

思维导图

用一张图看清主题之间的关系。

查看大纲文本(无障碍 / 无 JS 友好)
  • UniRL 框架
    • 训练循环
      • generate → score → advantage → update → sync
      • 跨模型家族
    • 支持的模态
      • 文本→图像
      • 文本/图像→视频
      • 视觉-语言
      • 文本-only LLM 和 VLM
    • 原创算法
      • FlowDPPO
      • DRPO

金句 / Highlights

值得收藏与分享的关键句。

  • UniRL 使用单一训练循环(generate → score → advantage → update → sync)支持多种模态和模型。

    第 1 段

    ⬇︎ 下载 PNG𝕏 分享到 X
  • FlowDPPO 和 DRPO 是 UniRL 中的两个原创算法,分别用于流模型和大语言模型的强化学习。

    第 4 段

    ⬇︎ 下载 PNG𝕏 分享到 X
  • UniRL 支持三种部署模式,可通过单一配置开关进行调整。

    第 3 段

    ⬇︎ 下载 PNG𝕏 分享到 X
#强化学习#UniRL#Tencent#AI框架
打开原文

腾讯混元在 X 上的发言:“1、大多数强化学习框架仅适用于单一模态。UniRL 在模型家族中应用了一个统一的训练循环 —— 生成 → 评分 → 优势 → 更新 → 同步。模型和算法是两个独立的维度,因此你的覆盖范围是模型 × 算法的乘积,而不是固定的配方” / X

Tencent Hy

@TencentHunyuan

回复

1、大多数强化学习框架仅适用于单一模态。UniRL 在模型家族中应用了一个统一的训练循环 —— 生成 → 评分 → 优势 → 更新 → 同步。模型和算法是两个独立的维度,因此你的覆盖范围是模型 × 算法的乘积,而不是固定的配方菜单。2、一个循环,适用于所有模态:文本→图像,文本/图像→视频,视觉-语言,仅文本的大型语言模型(LLM)和视觉-语言模型(VLM),LLM→扩散提示增强器,以及统一的自回归+扩散生成(Hunyuan-Image 3Bagel)——这是一个单一用途的强化学习仓库都无法表达的模型类别。3、专为扩展而设计:一个类型化合同背后可插拔的 rollout 引擎(训练端 / SGLang / vLLM-Omni),FSDP2 分片,以及通过一个配置旋钮即可实现的三种部署模式。4、发布中包含两个团队原创算法:FlowDPPO:基于精确散度的置信区域掩码的流/扩散模型策略优化(详见我们的论文:Flow-DPPO: Divergence Proximal Policy Optimization for Flow Matching Models

github.com/Tencent-Hunyua…

) DRPO:使用平滑、优势加权二次正则化器的大型语言模型强化学习(详见我们的论文:Rethinking the Divergence Regularization in LLM RL [

arxiv.org/abs/2606.09821

])

UniRL/FlowDPPO/HY_FlowDPPO.pdf at main · Tencent-Hunyuan/UniRL

来自 github.com

2026年6月9日 下午12:03

1.5K

浏览量

1

8

2

AI 可能会生成不准确的信息,请核实重要内容