1、Most RL stacks are built for one modality. UniRL applies a single post-training loop — generate → ...
Hunyuan(@TXhunyuan)257 字 (约 2 分钟)
85
UniRL 是一个统一的强化学习框架,支持多种模态和模型,通过单一训练循环实现跨模型家族的训练。
入选理由:UniRL 使用单一训练循环(generate → score → advantage → update → sync)支持多种模态和模型。
精选推文#强化学习#UniRL#Tencent#AI框架英文