DPO 最近有什么新动态？

traeai 已收录 4 篇与 DPO 相关的内容。最新一篇是「Direct Preference Optimization Beyond Chatbots」，由 Hugging Face Blog 发布。

概念

DPO

直接偏好优化，用于模型训练的方法。

别名：Direct Preference Optimization

直接偏好优化，用于模型训练的方法。

已跟踪 4 条高相关材料

Direct Preference Optimization Beyond Chatbots

Hugging Face Blog · 8.5 分

本文介绍了DPO（Direct Preference Optimization）技术，它通过使用模型自身失败时产生的拒绝对来优化文本生成，从而显著减少了文本退化率。DPO在OCR（光学字符识别）任务中特别有效，因为它可以作为直接的失败模式缓解工具，而无需依赖于主观的人类判断。

Qwen 3.5 from @Alibaba_Qwen is now available on @FireworksAI_HQ Training Platform across the Managed...

Fireworks AI(@FireworksAI_HQ) · 7.2 分

Fireworks AI 宣布 Qwen 3.5 正式接入其训练平台，支持 SFT/DPO/RLHF 等全栈微调方式、256K 上下文及 LoRA/全参微调。

GLM 5.1 from @Zai_org is now available on @FireworksAI_HQ Training Platform across the Managed and T...

Fireworks AI(@FireworksAI_HQ) · 7.2 分

Fireworks AI 平台正式支持智谱 GLM 5.1 模型，提供 SFT/DPO 微调能力、200K 超长上下文窗口，专为长周期智能体编程微调优化，RL 训练即将上线。

Hugging Face Blog6月3日2903 字 (约 12 分钟)

入选理由：DPO技术通过使用模型自身失败时产生的拒绝对来优化文本生成，显著减少了文本退化率。

精选文章#Direct Preference Optimization#OCR#text generation#model training中文

Fireworks AI(@FireworksAI_HQ)5月4日304 字 (约 2 分钟)

Fireworks AI 平台正式支持智谱 GLM 5.1 模型，提供 SFT/DPO 微调能力、200K 超长上下文窗口，专为长周期智能体编程微调优化，RL 训练即将上线。

入选理由：GLM 5.1 已集成至 Fireworks AI 托管与 API 训练工作流

精选推文#GLM#Fireworks AI#大模型微调#SFT#DPO中文

Fireworks AI(@FireworksAI_HQ)5月4日315 字 (约 2 分钟)

Fireworks AI 宣布 Qwen 3.5 正式接入其训练平台，支持 SFT/DPO/RLHF 等全栈微调方式、256K 上下文及 LoRA/全参微调。

入选理由：Qwen 3.5 已上线 Fireworks AI 训练平台，覆盖托管与 API 两种工作流

精选推文#Qwen#Fireworks AI#大模型微调#LLM#Alibaba中英混合

Fireworks AI(@FireworksAI_HQ)6月10日115 字 (约 1 分钟)

Fireworks AI 扩展其训练平台，支持 Nemotron 3 Ultra 模型的微调和 DPO 训练。

入选理由：Nemotron 3 Ultra 现在支持 SFT 和 DPO 训练。

精选推文#Fireworks AI#Nemotron 3 Ultra#模型训练#SFT#DPO英文

回答基于：DPO 相关 4 条材料