The Statistics of Token Selection: Logits, Temperature, and Top-P Walkthrough

TL;DR · AI 摘要
文章介绍了大语言模型(LLM)中的token选择机制,包括logits、temperature和top-p的原理及其在输出生成中的作用。
核心要点
- logits是模型输出的原始未归一化分数,通过softmax转换为概率分布。
- temperature调整概率分布的平滑度,影响模型的创造力和确定性。
- top-p(核采样)限制候选token的数量,控制生成的随机性。
结构提纲
按章节快速跳转。
介绍LLM输出生成中的关键参数和机制。
解释logits的概念及其在LLM中的作用。
介绍temperature和top-p的原理及其对token选择的影响。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- Token Selection in LLMs
金句 / Highlights
值得收藏与分享的关键句。
logits是模型输出的原始未归一化分数,通过softmax转换为概率分布。
temperature调整概率分布的平滑度,影响模型的创造力和确定性。
top-p(核采样)限制候选token的数量,控制生成的随机性。
在这篇文章中,你将学习logits、温度和top-p采样是如何协同工作来控制大型语言模型中的下一个令牌预测的。
我们将涵盖的主题包括:
- logits是什么以及它们是如何由变压器的最终线性层产生的。
- 温度和top-p(核采样)如何塑造用于令牌选择的概率分布。
- 这三个组件如何融入一个顺序管道,该管道控制LLM输出生成。

令牌选择的统计学:Logits、温度和Top-P详解
引言
当大型语言模型,或简称为LLMs,生成输出时,涉及多个标准,包括不仅整体响应的相关性,还包括连贯性和创造性。由于在模型内部,它们通过逐词构建其响应——更精确地说,逐令牌——捕捉这些可取属性是一个数学上调整控制下一个令牌预测过程的输出概率分布的问题。
本文从统计学的角度介绍了LLM解码策略的机制。特别是,我们将探索原始模型得分,称为logits,如何与两个其他模型设置——温度和top-p——相互作用,这是控制令牌选择过程的三个关键参数。
虽然我们将重点放在探索LLMs底层架构的非常最后阶段,即变压器,但如果你需要对整个过程和旅程的简洁概述,可以查看这篇文章,了解从开始到结束令牌所经历的全过程。

LLMs中的令牌选择过程
什么是Logits?
在神经网络中,转换成可能结果(例如类别)的概率之前产生的原始未归一化分数(通常在最终线性层中产生)被称为logits。尽管logits自经典机器学习分类模型如softmax回归时代以来就被使用,但同样的原则也适用于变压器模型的最终线性层。这一最终层处理隐藏状态——这些状态包含在整个变压器过程中逐步积累的关于输入文本的语言知识——并输出一个logits向量。有多少个?与模型的词汇表大小一样多,即模型可以生成的可能令牌的数量。
例如,看看顶部的图表。如果一个训练有素的英语到西班牙语翻译LLM正在预测生成序列“me gusta mucho”(“我真的很喜欢”的翻译)之后的下一个单词,它可能会输出“viajar”(旅行)的原始logit得分为12.5,“jugar”(玩)的得分为8.2,“dormir”(睡)的得分为-3.1。这些原始值没有界限,难以直接解释;因此,在最终线性层之上应用softmax函数,将这些logits转换为标准且可解释的词汇令牌概率分布,使得所有值的总和为1。
什么是温度和Top-p?
一旦我们有了目标词汇表的概率分布,LLMs是否简单地选择具有最高概率的令牌作为下一个要生成的令牌?并非完全如此,但真正的过程非常接近这种情况。下一个令牌是从分布中采样的,而这种采样方式取决于几个解码参数,其中最重要的两个是温度和top-p。
- 温度是一个缩放因子,应用于softmax步骤之前的logits。高温度(例如高于1)会平滑得到的概率,使其更加均匀。结果是不确定性增加,不可预测性增加,模型表现得更加富有创造力。低温度(例如远低于1)会锐化高概率和低概率令牌之间的差异,增加确定性,并强烈倾向于原始分布中最可能的令牌。更多关于温度的信息可以在相关文章中找到。
- Top-p,也称为核采样,是另一种控制下一个令牌选择随机性的方法。与其缩放概率,它限制了可供采样的候选池。虽然类似的方法如top-k只考虑k个最高概率的令牌,top-p则识别累积概率达到或超过阈值p的最小令牌集,使其更具适应性和灵活性。换句话说,如果我们设置p=0.9,top-p按概率对令牌进行排序,并继续将它们添加到候选池中,直到其累积概率达到0.9。
完整详解:这些概念是如何相互关联的?
logit到概率的计算、温度和top-p可以结合成一个顺序的多步骤管道,用于生成LLM输出,即下一个令牌预测。
首先,模型会生成所有可能的标记的原始对数几率(logits),如上所述。然后温度就发挥作用了,通过缩放这些原始对数几率——请注意,这发生在 _softmax 函数将它们转换为概率之前_。根据温度值的不同,得到的分布会看起来更均匀(高温度,不确定性更高)或更尖锐(低温度,确定性更高)。

基于 logits、温度和 top-p 的标记选择流程
一旦缩放后的对数几率被转换为概率,就会应用 top-p 来过滤得到的分布,计算累积概率以保留最有可能的标记的核心“核池”(参见上图中的步骤 3)。最后,模型从该池中随机采样以选择下一个标记。
结语
现在我们已经揭开了大语言模型(LLM)中标记选择的统计过程的神秘面纱,考虑如何在实践中选择温度和 top-p 的值是有用的。作为开发人员,您需要为您的应用场景定义可预测性和创造力之间的正确平衡。对于像编码或法律分析这样的事实性和高风险场景,建议使用较低的温度和更严格的 top-p——例如 t=0.1 和 p=0.5,这将产生高度确定性的模型响应。对于像诗歌生成或头脑风暴这样的创意领域,较高的温度和 top-p,例如 t=0.8 和 p=0.95,允许在选择池中有更多的候选标记。
##### 尚无评论。