GRPO 最近有什么新动态？

traeai 已收录 4 篇与 GRPO 相关的内容。最新一篇是「从高拟真到真可用，LongCat-Video-Avatar 1.5 正式开源」，由美团技术团队发布。

概念

GRPO

广义相对策略优化，一种强化学习训练方法。

已跟踪 4 条高相关材料

从高拟真到真可用，LongCat-Video-Avatar 1.5 正式开源

美团技术团队 · 9.2 分

LongCat-Video-Avatar 1.5 开源版本在唇形同步、物理合理性、长视频稳定性等方面实现显著提升，支持复杂商业场景下的高质量数字人视频生成。

https://t.co/nw0GoHamCI

宝玉(@dotey) · 9.2 分

DeepSeek通过多项底层技术创新构建低成本高效能模型体系，旨在撬动中国10万亿美元AI硬件生态并实现自身万亿美元市值。

英伟达推出 AI 框架 Polar，让 Codex 跑分暴涨 594.74%

AI HOT 精选 · 8.5 分

英伟达推出开源框架 Polar，显著提升 Codex 等智能体的性能和效率。

美团技术团队5月25日2226 字 (约 9 分钟)

LongCat-Video-Avatar 1.5 开源版本在唇形同步、物理合理性、长视频稳定性等方面实现显著提升，支持复杂商业场景下的高质量数字人视频生成。

入选理由：采用 Whisper-large 编码器，提升唇形同步与动作稳定性。

精选文章#数字人#视频生成#AI模型#开源项目#美团中文

宝玉(@dotey)5月25日5655 字 (约 23 分钟)

DeepSeek通过多项底层技术创新构建低成本高效能模型体系，旨在撬动中国10万亿美元AI硬件生态并实现自身万亿美元市值。

入选理由：DeepSeek V4 Pro在100万上下文中仅需5.48GB HBM显存，远低于竞品的60-89GB。

精选推文#DeepSeek#AI模型#MoE#KV缓存优化#硬件生态中文

AI HOT 精选5月28日907 字 (约 4 分钟)

英伟达推出开源框架 Polar，显著提升 Codex 等智能体的性能和效率。

入选理由：Polar 框架让 Codex 在 SWE-Bench Verified 测试中的 pass@1 分数提升了 594.74%。

精选文章#英伟达#Polar#AI 框架#Codex#强化学习中文

量子位5月17日2434 字 (约 10 分钟)

SFT可能在训练多模态大模型时引入分布偏差，导致RL阶段性能下降。PRISM通过三阶段流水线修复这一问题。

入选理由：SFT可能导致模型性能下降，如Qwen3-VL-8B SFT后准确率下降5.2%

精选文章#多模态#大模型#PRISM中文

回答基于：GRPO 相关 4 条材料