T
traeai
登录
返回首页
科学空间

矩阵参数的奇异值熵越高越好吗?

9.2Score

TL;DR · AI 摘要

奇异值熵并非越高越好;通过几何建模与平均场近似,发现最优熵值约为 log(n) - 1(n为矩阵维度),对应有效秩约 e·n,该值在自由度与表达能力间取得平衡。

核心要点

  • 奇异值熵最大值为 log(n),但最优值约为 log(n) - 1,对应有效秩 ≈ e·n(e≈2.718)
  • 均匀采样 n 元概率分布等价于对 n 个 Exp(1) 变量归一化,此转化使熵期望可近似计算
  • 基于中心极限定理,高维下熵分布近似正态,其峰值(最概然熵)即为最优熵值

结构提纲

按章节快速跳转。

  1. §问题提出:奇异值熵是否越高越好?

    作者指出Muon优化器训练出的模型具有更高奇异值熵,并质疑该指标是否存在最优值。

  2. 奇异值熵通过归一化奇异值得到概率分布后计算香农熵,本质等价于矩阵的有效秩,反映参数利用效率。

  3. 将问题转化为在给定熵约束下剩余自由度最大化,进而等价于寻找熵分布的概率密度峰值点。

  4. ·几何建模:单纯形上的均匀采样

    n元概率分布构成n-1维单纯形,均匀采样可通过Exp(1)变量归一化实现,为后续计算奠定基础。

  5. 利用平均场技巧推导出熵的期望近似为 log(n) - 1 + o(1),即最优奇异值熵约为 log(n) - 1。

思维导图

用一张图看清主题之间的关系。

查看大纲文本(无障碍 / 无 JS 友好)
  • 奇异值熵的最优性分析
    • 核心问题
      • 熵越高是否越好?
      • 是否存在最优熵值?
    • 理论工具
      • 香农熵与Rényi熵
      • 有效秩(Effective Rank)
      • n-1单纯形几何
      • Exp(1)归一化采样
    • 求解路径
      • 自由度压缩视角
      • 熵分布概率密度建模
      • 中心极限定理近似
      • 平均场近似得 E[H] ≈ log n - 1
    • 结论
      • 最优熵 ≈ log n - 1
      • 对应有效秩 ≈ e·n
      • 非极端值更优:平衡表达力与冗余

金句 / Highlights

值得收藏与分享的关键句。

  • 奇异值熵最大值为 log n(均匀分布),最小值为 0(One-Hot),但最概然熵(即概率密度最大处)位于中间位置,约为 log n - 1。

    第4节

    ⬇︎ 下载 PNG𝕏 分享到 X
  • 均匀采样 n 元概率分布等价于:独立采样 n 个 Exp(1) 随机变量 x_i,再令 p_i = x_i / Σx_j;该转化使熵期望可解析近似。

    第5节

    ⬇︎ 下载 PNG𝕏 分享到 X
  • 当 n 较大时,熵 H(p) 的分布近似正态,其均值(即最概然值)为 E[H] ≈ log n - 1,对应有效秩 r_eff ≈ e·n ≈ 2.718n。

    第6节

    ⬇︎ 下载 PNG𝕏 分享到 X
#奇异值熵#有效秩#矩阵分解#信息论#深度学习优化
打开原文

在去年的技术报告《Muon is Scalable for LLM Training》中,为了对比Muon与Adam所训练出来的模型的差异,我们引入了“奇异值熵”的概念,观察到Muon训练出来的矩阵参数,其奇异值熵普遍高于Adam所训的矩阵,我们将此作为“Muon更充分利用了模型参数”的一个经验证据。

然而,奇异值熵真的越高越好吗?是否存在一个最优的奇异值熵呢?或者反过来问,如果我们必须事先限定矩阵参数的奇异值熵,那么该取一个什么值呢?

概念回顾[#](https://spaces.ac.cn/archives/11767#%E6%A6%82%E5%BF%B5%E5%9B%9E%E9%A1%BE)

首先回顾一些概念。我们知道矩阵的奇异值都是非负的,那么我们就可以对奇异值做某种归一化,比如直接归一化/平方归一化:

\begin{equation}p_i = \frac{\sigma_i}{\sum_{j=1}^n \sigma_j}\qquad\text{或}\qquad p_i = \frac{\sigma_i^2}{\sum_{j=1}^n \sigma_j^2}\end{equation}

然后就得到一个 n 元概率分布\boldsymbol{p} = (p_1,p_2,\cdots,p_n)。有了概率分布后,我们就可以计算一些相关的变量,比如熵

\begin{equation}H(\boldsymbol{p}) = -\sum_{i=1}^n p_i \log p_i\end{equation}

这便是“奇异值熵”的概念。我们知道最大熵对应的是均匀分布,所以奇异值熵也是用来度量奇异值的均匀程度。不过,熵的概念并不止一种,上述对数期望形式的熵,我们称为“香农熵”,此外还有别的熵,比如Rényi熵

\begin{equation}H_q(\boldsymbol{p}) = -\frac{1}{q-1}\log \sum_{i=1}^n p_i^q \end{equation}

实际上香农熵也是它的特例,对应的是 q\to 1。对于其他 q 值,它也是在均匀分布取到最大值\log n,在One Hot分布取到最小值 0。矩阵的奇异值熵实际上跟矩阵的有效秩(Effective Rank)是本质等价的,它的另一个含义是矩阵奇异值的稀疏程度(参考《如何度量数据的稀疏程度?》)。

问题转化[#](https://spaces.ac.cn/archives/11767#%E9%97%AE%E9%A2%98%E8%BD%AC%E5%8C%96)

现在的问题是,如何将“奇异值熵真的越高越好吗”这一疑问转化为可计算的命题,从而给出一个参考答案呢?

直观来想,由于当前模型普遍是过参数化的,所以也存在不少冗余自由度,这允许我们给模型参数加一些约束——比如约束它的模长或奇异值熵——但不会明显损失性能。给参数施加约束后,其自由度自然会被压缩。我们可以经验地认为:剩余的自由度越大,模型的能力就越强,这便是我们寻找“最优奇异值熵”的原理。

那么,给定奇异值熵后,矩阵的自由度还剩多少呢?先来看两种极端情形:第一种是最小熵,对应的奇异值只有一个非零,此时矩阵是一个Rank-1矩阵,自由度不超过 2n;第二种是最大熵,对应奇异值非零且全等,此时矩阵是一个正交矩阵(的若干倍),自由度约 n^2/2。这样看来,最大熵确实比最小熵要优,但是否存在一个更优的中间值呢?

我们也可以抛开矩阵背景,直接看奇异值分布的“熵密度”。n 元分布的最大熵是\log n,此时只有均匀分布满足;最小熵是 0,对应的分布是One Hot分布,有 n 种不同的选择。显然,这两个边界的“密度”看起来都不是很高,它们只能表示一小部分分布,因此可以猜测最优值确实位于中间位置。

这样转化下来,我们的问题变成了:如果均匀地采样 n 元分布,然后计算熵,那么熵的分布长什么样?概率密度最大的地方在哪?概率密度最大的点,意味着在那附近拥有最大数量的分布,我们就认为这是表达能力最大的熵值。

几何图景[#](https://spaces.ac.cn/archives/11767#%E5%87%A0%E4%BD%95%E5%9B%BE%E6%99%AF)

可能有些读者对“均匀地采样 n 元分布”不大理解——通常情况下我们都是给定概率分布,然后采样一个数,现在我们要采样的是概率分布本身。不过,只要我们暂时抛开\boldsymbol{p}的概率意义,那么就可以获得一个很清晰的几何理解。

具体来说,一个 n 元概率分布\boldsymbol{p},实际上是指满足如下约束的一个 n 维向量:

\begin{equation}0 \leq p_i \leq 1 \, (\forall i=1,2,\cdots,n)\qquad \sum_{i=1}^n p_i = 1\end{equation}

第一个约束,描述了一个 n 维空间中的单位超立方体,第二个约束则描述一个 n 维空间中的超平面,两者一相交,得到一块有限的子平面,这块子平面就称为“n-1 单纯形”,记为\Delta^{n-1}。所谓“均匀采样 n 元分布”,实际上就是在这块子平面上均匀采样一个点,这样理解就直观多了。

不知道读者是否好奇,为什么用三角形符号\Delta 来表示单纯形?实际上,当 n=3 时,这块子平面正是以(1,0,0)、(0,1,0)和(0,0,1)为顶点的等边三角形;不难想象,当 n=4 时,它构成了三维空间一个正四面体。依此类推可以发现,从几何角度看,单纯形实际上就是等边三角形在高维空间中的推广,因此用三角形\Delta 来表示。

极限定理[#](https://spaces.ac.cn/archives/11767#%E6%9E%81%E9%99%90%E5%AE%9A%E7%90%86)

言归正传。现在我们考虑计算熵的概率密度,它可以形式地写成

\begin{equation}\rho(h) = \frac{\int_{\boldsymbol{p}\in\Delta^{n-1}} \delta(H(\boldsymbol{p}) - h) d\boldsymbol{p}}{\int_{\boldsymbol{p}\in\Delta^{n-1}} d\boldsymbol{p}}\end{equation}

其中\delta(\cdot)是Dirac函数。该式的物理意义其实也很直观,就是对 H(\boldsymbol{p})=h 的分布进行“计数”,然后除以总数。然而,这纯粹是一个形式解,实际去解析计算几乎不可能。

考虑到实际场景下 n 通常都比较大(数百乃至数千),我们可以基于“中心极限定理”,假设此时\rho(h)近似为一个正态分布。正态分布只有均值和方差两个参数,所以我们只需计算熵的均值和方差(二阶矩),即\mathbb{E}_{\boldsymbol{p}\sim\Delta^{n-1}}[H(\boldsymbol{p})]和\mathbb{E}_{\boldsymbol{p}\sim\Delta^{n-1}}[H(\boldsymbol{p})^2]。如果我们只想找最大概率点,那么只需计算均值,因为正态分布的最大概率点就是均值。

计算均值\mathbb{E}_{\boldsymbol{p}\sim\Delta^{n-1}}[H(\boldsymbol{p})]的困难是如何实现\boldsymbol{p}\sim\Delta^{n-1},这个采样虽然概念上是直观的,但计算中如何实现并不清晰。如果读者了解一些Dirichlet分布的背景知识,那么可以利用一些现成结论来加速理解,但这里我们刻意回避引入Dirichlet分布,降低普通读者的理解成本。

采样转化[#](https://spaces.ac.cn/archives/11767#%E9%87%87%E6%A0%B7%E8%BD%AC%E5%8C%96)

幸运的是,在单纯形中均匀采样可以转化为从指数分布\text{Exp}(1)独立重复采样:

\begin{equation}\boldsymbol{p}\sim\Delta^{n-1}\qquad\Leftrightarrow\qquad p_i = \frac{x_i}{\sum_{j=1}^n x_j},\quad x_1,x_2,\cdots,x_n\sim \text{Exp}(1)\end{equation}

也就是说,从指数分布\text{Exp}(1)独立重复采样 n 个数,然后归一化,就等价于单纯形均匀采样。怎么去理解这个事情呢?严格地证明自然是可以的,但这里笔者更想介绍一个类比各向同性的视角来理解。

先让我们换另一个问题:均匀地采样 n 维单位向量。这个不难实现,只需从标准正态分布\mathcal{N}(0,1)中采样 n 个数(x_1,x_2,\cdots,x_n)=\boldsymbol{x},然后返回\boldsymbol{x}/\Vert\boldsymbol{x}\Vert。为什么能这样做?因为\mathcal{N}(0,1)的概率密度正比于 e^{-x^2/2},采样 n 次就是 e^{-\sum_{i=1}^n x_i^2/2} = e^{-\Vert\boldsymbol{x}\Vert^2/2},只依赖于\boldsymbol{x}的模长而不依赖于方向,所以从\mathcal{N}(0,1)采样对于方向来说是均匀的。

单位向量是“平方和等于1”的向量,现在我们要采样的概率分布则是“和等于1”的向量,这样看来,概率分布就是 以“和”为模长 的单位向量。而我们知道指数分布\text{Exp}(1)的概率密度是 e^{-x},采样 n 次就是 e^{-\sum_{i=1}^n x_i},只依赖于“和”模长,所以它对于这种新的“方向向量”来说是均匀的。

平均之场[#](https://spaces.ac.cn/archives/11767#%E5%B9%B3%E5%9D%87%E4%B9%8B%E5%9C%BA)

准备了那么多,现在我们可以正式进入计算了。在新参数化下,熵 H(\boldsymbol{p})可以变换为

\begin{equation}H(\boldsymbol{p}) = \log \sum_{i=1}^n x_i - \frac{\sum_{i=1}^n x_i \log x_i}{\sum_{i=1}^n x_i}\end{equation}

然后对两边算期望,得到一道颇为复杂的积分题。有趣的是,这道积分虽然复杂,但它是可以通过一些技巧来求得解析解的。不过,这里我们就不去深究这些细节了,而是通过平均场技巧快速获得一个近似解:

\begin{equation}\begin{aligned} \mathbb{E}\left[\log \sum_{i=1}^n x_i - \frac{\sum_{i=1}^n x_i \log x_i}{\sum_{i=1}^n x_i}\right] \approx \log \sum_{i=1}^n \mathbb{E}[x_i] - \frac{\sum_{i=1}^n \mathbb{E}[x_i \log x_i]}{\sum_{i=1}^n \mathbb{E}[x_i]} = \log n - (1 - \gamma) \end{aligned}\end{equation}

其中\gamma 是欧拉常数。这里\mathbb{E}[x_i]=1 是显然的,有点难度的是\mathbb{E}[x_i \log x_i]=1-\gamma,但这个结果也是经典的,跟Gamma函数的导数有关,要是不知道这个结果,直接用Mathematica也可以计算出来。

我们知道,n 元分布的最大熵是\log n,现在多出了一项-(1-\gamma) = - 0.42278\cdots,这正是我们想要的,它表明熵密度最大的地方,大概在比最大熵小 0.42 的位置,对于矩阵而言,奇异值熵在此处附近的矩阵表达能力更强,而非越大越好。如果我们需要固定奇异值熵,那么可以选择这个值。

一般形式[#](https://spaces.ac.cn/archives/11767#%E4%B8%80%E8%88%AC%E5%BD%A2%E5%BC%8F)

用同样的思路,我们可以计算一般Rényi熵的期望:

\begin{equation}\begin{aligned} \mathbb{E}[H_q(\boldsymbol{p})] =&\, \frac{1}{q-1}\mathbb{E}\left[q\log \sum_{i=1}^n x_i -\log \sum_{i=1}^n x_i^q\right] \\ \approx&\, \frac{1}{q-1}\left[q\log \sum_{i=1}^n \mathbb{E}[x_i] - \log \sum_{i=1}^n \mathbb{E}[x_i^q]\right] \\ =&\, \frac{1}{q-1}\left[q \log n - \log n\Gamma(q+1)\right] \\ =&\, \log n - \frac{\log \Gamma(q+1)}{q-1} \end{aligned}\label{eq:E-Hq}\end{equation}

如果 q\to 1,那么对应的极限正是\log n - (1-\gamma),跟上一节的结果一致。如果 q 是大于1的整数,那么直接可以写出

\begin{equation}\mathbb{E}[H_q(\boldsymbol{x})] \approx \log n - \frac{\log q\,!}{q-1}\end{equation}

如果取 q=2,那么结果是极简的\log (n/2)。我们知道\log (n/2)是 n/2 元分布的最大熵,所以这个结果的形象理解就是:奇异值熵只要“打满”一半的维度就好了,不需要打满全部维度,否则反而会丧失多样性。

完整分析[#](https://spaces.ac.cn/archives/11767#%E5%AE%8C%E6%95%B4%E5%88%86%E6%9E%90)

上面两节我们都在集中精力估计均值,当然这对于我们的原始目标来说已经够用了。不过,为了分析的完整性,这一节我们来补充方差的估计,并补充讨论渐近正态性对\rho(h)为什么成立。

首先,我们将 H_q(\boldsymbol{p})恒等变换成

\begin{equation}H_q(\boldsymbol{p}) = \log n + \frac{1}{q-1}\Bigg[q\log \underbrace{\frac{1}{n}\sum_{i=1}^n x_i}_u -\log \underbrace{\frac{1}{n}\sum_{i=1}^n x_i^q}_v\Bigg]\end{equation}

当 q\neq 1 时,u,v 是两个不同的统计量,中心极限定理告诉我们,当 n\to\infty 时,(u,v)渐近服从二元正态分布。根据 x_i\sim \text{Exp}(1),我们可以求出 u 的均值和方差分别是 1 和 1/n,v 的均值和方差则分别是\Gamma(q+1)和[\Gamma(2q+1) - \Gamma(q+1)^2]/n。

由此可见,当 q 不大而 n 较大时,它们都集中在各自的均值附近,这允许我们在均值附近做泰勒展开,比如一阶近似

\begin{equation}H_q(\boldsymbol{p}) \approx \log n + \frac{1}{q-1}\Bigg[q(u-1) - \left(\log \mu_v + \frac{v - \Gamma(q+1)}{\Gamma(q+1)}\right)\Bigg]\end{equation}

两端求期望,即可得到式\eqref{eq:E-Hq},如果我们有需要,也可以展开到更多阶去求余项。由于现在 H_q(\boldsymbol{p})关于 u,v 是线性的,我们还可以根据如下公式计算方差

\begin{equation}\mathbb{V}\mathrm{ar}[H_q(\boldsymbol{p})] \approx \mathbb{V}\mathrm{ar}\left[\frac{q u}{q-1}\right] + \mathbb{V}\mathrm{ar}\left[\frac{v}{(q-1) \Gamma(q+1)}\right] - 2\mathbb{C}\mathrm{ov}\left[\frac{q u}{q-1},\frac{v}{(q-1) \Gamma(q+1)}\right]\end{equation}

这里要注意,u,v 通常不是独立的,所以协方差项不可忽略

\begin{equation}\mathbb{C}\mathrm{ov}[u, v] = \frac{1}{n^2}\sum_{i=1}^n \sum_{j=1}^n \mathbb{C}\mathrm{ov}[x_i, x_j^q] = \frac{1}{n^2}\sum_{i=1}^n \mathbb{C}\mathrm{ov}[x_i, x_i^q]\end{equation}

第一个等号是根据 u,v 的定义以及\mathbb{C}\mathrm{ov}的双线性,第二个等号是因为 i\neq j 时 x_i,x_j 相互独立,协方差为0。接着计算得\mathbb{C}\mathrm{ov}[x_i, x_i^q] = \mathbb{E}[x_i^{q+1}] - \mathbb{E}[x_i] \mathbb{E}[x_i^q]=\Gamma(q+2) - \Gamma(q+1) = q \Gamma(q+1)。代入这些结果,我们得到

\begin{equation}\mathbb{V}\mathrm{ar}[H_q(\boldsymbol{p})] \approx \frac{1}{n}\left[\frac{\Gamma(2q+1)}{(q-1)^2 \Gamma(q+1)^2} - \frac{q^2+1}{(q-1)^2}\right]\end{equation}

当 q=2 时,结果是 1/n;当 q\to 1 时,结果是(\pi^2/3-3)/n。

总的来说,中心极限定理其实没有直接给出熵 h 的渐近正态性,我们只能得到中间变量 u,v 的渐近正态性,然后从中估算 h 的均值和方差,显示 h 的方差也是\mathcal{O}(1/n)的,这表明方差会随着 n 增大而缩小,所以通过均值来找概率密度最大点是科学的。

文章小结[#](https://spaces.ac.cn/archives/11767#%E6%96%87%E7%AB%A0%E5%B0%8F%E7%BB%93)

本文将“奇异值熵是否越高越好”转化为一个可定量分析的数学命题,核心假设是:固定奇异值熵后,矩阵参数剩余的自由度代表着它的表达能力。随后,我们将自由度最大的位置,理解为熵密度最大的点,通过一系列变换和近似,得到了一个最优熵值。

当然,这个结果本身并不是特别重要,本文的意义更多是为相关问题的分析提供了一个参考框架。

_转载到请包括本文地址:[https://spaces.ac.cn/archives/11767](https://spaces.ac.cn/archives/11767 "矩阵参数的奇异值熵越高越好吗?")_

_更详细的转载事宜请参考:_[《科学空间FAQ》](https://spaces.ac.cn/archives/6508#%E6%96%87%E7%AB%A0%E5%A6%82%E4%BD%95%E8%BD%AC%E8%BD%BD/%E5%BC%95%E7%94%A8 "《科学空间FAQ》")

AI 可能会生成不准确的信息,请核实重要内容

矩阵参数的奇异值熵越高越好吗? | 科学空间 | traeai