T
traeai
登录

概念

GRPO

广义相对策略优化,一种强化学习训练方法。

已跟踪 4 条高相关材料

TraeAI 观察

相关材料

已收录 4 条与 GRPO 相关的内容,按评分排序。

从高拟真到真可用,LongCat-Video-Avatar 1.5 正式开源

从高拟真到真可用,LongCat-Video-Avatar 1.5 正式开源

美团技术团队2226 字 (约 9 分钟)
92

LongCat-Video-Avatar 1.5 开源版本在唇形同步、物理合理性、长视频稳定性等方面实现显著提升,支持复杂商业场景下的高质量数字人视频生成。

入选理由:采用 Whisper-large 编码器,提升唇形同步与动作稳定性。

精选文章#数字人#视频生成#AI模型#开源项目#美团中文
https://t.co/nw0GoHamCI

DeepSeek 的 10 万亿美元大战略【译】

宝玉(@dotey)5655 字 (约 23 分钟)
92

DeepSeek通过多项底层技术创新构建低成本高效能模型体系,旨在撬动中国10万亿美元AI硬件生态并实现自身万亿美元市值。

入选理由:DeepSeek V4 Pro在100万上下文中仅需5.48GB HBM显存,远低于竞品的60-89GB。

精选推文#DeepSeek#AI模型#MoE#KV缓存优化#硬件生态中文
英伟达推出 AI 框架 Polar,让 Codex 跑分暴涨 594.74%

英伟达推出 AI 框架 Polar,让 Codex 跑分暴涨 594.74%

AI HOT 精选907 字 (约 4 分钟)
85

英伟达推出开源框架 Polar,显著提升 Codex 等智能体的性能和效率。

入选理由:Polar 框架让 Codex 在 SWE-Bench Verified 测试中的 pass@1 分数提升了 594.74%。

精选文章#英伟达#Polar#AI 框架#Codex#强化学习中文
SFT别急着接RL!你的多模态大模型可能一直在“带伤训练”

SFT可能在训练多模态大模型时引入分布偏差,导致RL阶段性能下降。PRISM通过三阶段流水线修复这一问题。

入选理由:SFT可能导致模型性能下降,如Qwen3-VL-8B SFT后准确率下降5.2%

精选文章#多模态#大模型#PRISM中文

跨材料问答 · GRPO

回答基于:GRPO 相关 4 条材料
    0 / 500

    AI 可能会生成不准确的信息,请核实重要内容