🚀Introducing UniRL, an RL infra for unified multimodal models. Together with two new RL algorithms:...
Hunyuan(@TXhunyuan)115 字 (约 1 分钟)
85
腾讯推出 UniRL,一个统一的强化学习框架,支持多种多模态模型,并引入 DRPO 和 Flow-DPPO 两种新算法。
入选理由:UniRL 是一个统一的强化学习基础设施,适用于扩散模型、流匹配模型、LLMs/VLMs 和统一多模态模型。
精选推文#强化学习#多模态模型#腾讯#UniRL#DRPO#Flow-DPPO中英混合
