人物

ClementDelangue

Q: ClementDelangue 最近有什么新动态？

traeai 已收录 7 篇与 ClementDelangue 相关的内容。最新一篇是「Most people training agentic LLMs with RL right now have a silently broken training loop and have no...」，由 clem 🤗(@ClementDelangue) 发布。

别名：clem

推文作者，Hugging Face 社区成员，关注开源 AI 技术发展。

已跟踪 7 条高相关材料

TraeAI 观察

如果只读 3 篇

Most people training agentic LLMs with RL right now have a silently broken training loop and have no...

clem 🤗(@ClementDelangue) · 8.5 分

大多数正在使用强化学习（RL）训练代理LLM的人现在有一个默默损坏的训练循环，他们对此一无所知。单轮RL效果非常好，但当添加工具使模型能在回合中行动时，情况变得复杂，损失会出现无故尖峰，最终导致形状不匹配错误。原因在于每次解析模型输出、检测工具调用、重新标记更新后的对话，都会带...

Local open-weight AI on a laptop has been improving more than twice as fast as Moore's Law! Between...

clem 🤗(@ClementDelangue) · 7.5 分

文章指出，2024年5月至2026年5月间，本地开源大模型在笔记本电脑上的性能提升速度超过摩尔定律两倍。

Agree! was talking about this with @havoyan just a few days ago. That's also the reason why so much ...

clem 🤗(@ClementDelangue) · 6.5 分

文章讨论了用户倾向于默认选择前沿AI模型的现象，而非主动挑选最优模型。

大多数正在使用强化学习（RL）训练代理LLM的人现在有一个默默损坏的训练循环，他们对此一无所知。

clem 🤗(@ClementDelangue)5月30日259 字 (约 2 分钟)

大多数正在使用强化学习（RL）训练代理LLM的人现在有一个默默损坏的训练循环，他们对此一无所知。单轮RL效果非常好，但当添加工具使模型能在回合中行动时，情况变得复杂，损失会出现无故尖峰，最终导致形状不匹配错误。原因在于每次解析模型输出、检测工具调用、重新标记更新后的对话，都会带来潜在风险。解决方法是遵循一个规则：永远不要重新编码已经解码的标记。保持采样标记在一个缓冲区中，从不重新渲染它们，两种失败模式都会消失。

入选理由：单轮RL效果好，但加入工具后需小心处理，避免形状不匹配错误。

精选推文#强化学习#LLM中文