大多数正在使用强化学习(RL)训练代理LLM的人现在有一个默默损坏的训练循环,他们对此一无所知。
大多数正在使用强化学习(RL)训练代理LLM的人现在有一个默默损坏的训练循环,他们对此一无所知。单轮RL效果非常好,但当添加工具使模型能在回合中行动时,情况变得复杂,损失会出现无故尖峰,最终导致形状不匹配错误。原因在于每次解析模型输出、检测工具调用、重新标记更新后的对话,都会带来潜在风险。解决方法是遵循一个规则:永远不要重新编码已经解码的标记。保持采样标记在一个缓冲区中,从不重新渲染它们,两种失败模式都会消失。
入选理由:单轮RL效果好,但加入工具后需小心处理,避免形状不匹配错误。





