NeurIPS 2025 Best Paper Runner-up:用 superposition 解释 scaling law

Neural scaling law 的指数 $L \propto N^{-\alpha}$ 跨模型族、跨数据集、跨任务都差不多,但这条幂律为什么是幂律、指数从哪来,一直没搞清楚机制。已有解释多数是"假设数据的特征/技能重要性按幂律分布,loss 自然就是幂律",也就是说之前的理解是幂律来自数据本身。

NeurIPS 2025 Best Paper Runner-up Superposition Yields Robust Neural Scaling 研究发现这个问题跟几何表示相关。LLM 的隐藏维度 $m$ 远小于要表示的特征数 $n$,$n$ 个特征向量被迫挤进 $m$ 维空间,互相之间的干扰量级就是 $1/m$,loss 自然也就按 $1/m$ 下降。论文在 Anthropic 的 toy model 上加了一个旋钮,能独立调节叠加强弱,只要叠加足够充分,这条 $1/m$ 律就稳定成立,跟数据频率分布的具体形态几乎无关。换句话说,scaling law 的指数和鲁棒性都来自 $m$ 维球面的几何,而不是数据。

论文地址: arxiv.org/abs/2505.10465

scaling law 的已有解释

之前 scaling law 的解释大致两类:

  1. 流形 / 函数拟合视角:模型越大越能覆盖数据流形,loss 由没覆盖到的部分决定,指数取决于数据本身有多"厚"或者特征衰减得多快。
  2. 离散 skill / 特征学习视角(如 Quanta-style 模型):网络逐个学到可数的"技能",技能重要性按幂律分布,模型越大覆盖的 skill 越多。

这两类有个共同点:都要求数据本身的特征频率/技能重要性是幂律分布,scaling 才会是幂律,即"power law in, power law out"。

但这跟现实对不上。真实 LLM 跨任务、跨数据集都能拟出几乎一样的 scaling,跟数据形态关系不大。已有的认识无法解释这种鲁棒性

superposition 是什么

要理解论文的论证链,先把 superposition 讲清楚。Anthropic 2022 年那篇 toy model 提出来的:神经网络的隐藏空间维度 $m$ 有限,但语言里要表示的特征数 $n$(token、概念、组合等)远大于 $m$。每个特征绑到一个隐藏向量 $W_i$ 上,$n$ 个向量不可能两两正交,必须做取舍。

两种妥协方式:

  • 弱叠加(weak superposition):只挑最重要的 $m$ 个特征,给它们一组接近正交的基。剩下的 $n - m$ 个特征直接扔掉($W_i = 0$),输出时只能用全局均值兜底。
  • 强叠加(strong superposition):所有 $n$ 个特征都给一个非零的 $W_i$,但向量之间不可避免地有非零内积,互相干扰。模型靠 ReLU + 负偏置做"误差纠正",把小的干扰压成零。

什么时候强叠加更划算?当特征足够稀疏(一个样本只激活少数特征),干扰大概率不会同时引爆,纠错容易奏效,全表示比丢掉一半划算。自然语言天然满足这个条件(一句话用到的 token 远少于词表),所以 LLM 实际上跑在强叠加 regime。

这个概念跟 scaling law 的关系是论文要建立的核心连接:模型 loss 跟"特征怎么塞进隐藏空间"直接相关。塞得多挤、向量间几何怎样,决定了 loss 怎么随 $m$ 变化。

toy model 与扫描方式

要把"叠加强度"变成可控变量,需要一个简单到能解析、又能体现 LLM 两条核心特征的模型:(1) 特征数远多于隐藏维度,(2) 特征频率不均。论文沿用 Anthropic 的 autoencoder toy model:

输入 $x \in \mathbb{R}^n$,每个分量 $x_i = u_i v_i$,$u_i \sim \mathrm{Bernoulli}(p_i)$ 控制是否激活,$v_i \sim U(0, 2)$ 控制激活强度。模型把 $x$ 压到 $m \ll n$ 维隐藏空间再重建,参数就是一个 $W \in \mathbb{R}^{n \times m}$ 加偏置 $b$。$W_i$($W$ 的第 $i$ 行)就是特征 $i$ 在隐藏空间的表示向量。loss 是重建误差 $|y - x|_2^2$。特征频率假设按幂律 $p_i \propto 1/i^\alpha$ 分布,指数 $\alpha$ 控制分布有多陡——$\alpha$ 大,少数高频特征独占;$\alpha$ 小,频率更均匀。

论文做的关键改动是引入解耦的 weight decay 来独立控制叠加强度。正 weight decay 把大部分 $W_i$ 压到 0,模型只保留少量特征,进入弱叠加;负 weight decay 把所有 $|W_i|$ 拉向 1,所有特征都被表示,进入强叠加。有了这个旋钮,“叠加强度"和"频率分布"就成了两个可独立调的变量,能分别看 loss 跟 $m$ 的关系长什么样。

弱叠加:power law in, power law out

弱叠加下,前 $m$ 个最频繁特征被表示(论文里定义"已表示"为 $|W_i|^2 > 1/2$,对应比例记为 $\phi_{1/2}$,实测刚好 $\approx m/n$),其余被丢弃。loss 直接等于被丢弃特征的频率之和:

$$L \approx \langle v^2 \rangle \sum_{i > \phi_{1/2} n} p_i$$

代入 $p_i \propto 1/i^\alpha$($\alpha > 1$ 时积分才收敛)做积分,得到 $L \propto m^{-(\alpha-1)}$,即模型指数 $\alpha_m = \alpha - 1$。这正是之前那些解释的结论,所以它们其实只覆盖了弱叠加这一种情况。

结论也很清楚:loss 是不是幂律完全取决于数据频率是不是幂律

强叠加:几何决定的 $1/m$ 律

强叠加下 loss 的来源换了。所有特征都被表示,没有"丢弃"项;loss 全部来自表示向量之间的重叠。看最简单的情形,只有特征 $j$ 激活:理想输出 $y_i$ 应该等于 $x_i$(仅 $i=j$ 处非零),但实际 $y_i = \mathrm{ReLU}(W_i \cdot h + b_i) = \mathrm{ReLU}(W_i \cdot W_j + b_i)$。对非激活的 $i \neq j$,干扰项 $W_i \cdot W_j$ 进入输出造成误差,loss 跟 $(W_i \cdot W_j)^2$ 成正比。

于是问题变成纯几何:$n$ 个单位向量塞进 $m$ 维空间没法两两正交,它们之间夹角余弦的平方典型有多大? 这个量直接决定 loss,跟训练动力学、跟具体频率分布都没关系。

两个独立的几何事实从两头夹出答案:

  1. 随便扔(下界):在 $m$ 维球面上随机均匀撒 $n$ 个单位向量,任意两个夹角余弦的平方服从 $\mathrm{Beta}(1/2, (m-1)/2)$,均值就是 $1/m$,方差 $\sim 2/m^2$。这是高维空间的"近乎正交"现象——$m$ 越大,两个随机方向越倾向于互相垂直。哪怕完全不优化,量级也是 $1/m$。
  2. 最优排(上界):人为构造 $n$ 个向量,让"两两中最大的那个重叠"尽可能小,这是个有解析解的优化问题,最优构造叫 Equiangular Tight Frame(ETF,等角紧框架;论文里写的是 “equal angle tight frame”,意思相同)。结论是最大重叠的下界 $\approx 1/\sqrt{m}$,平方仍是 $1/m$。也就是说,哪怕你拼命优化把向量排得最均匀,重叠也压不到 $1/m$ 以下。

下界(随便扔)和上界(最优排)都落在 $1/m$,所以无论训练出的 $W_i$ 长成什么样——随机也好、接近 ETF 也好——夹角余弦平方都跑不出这个量级。

论文实测验证了这点:范数大于 1 的那批 $W_i$(约 $m^2/2$ 个,对应较重要的特征)方差远小于随机向量、平均平方重叠精确落在 $1/m$;范数较小的那批没法用单一理论描述,但实测平方重叠也稳定服从 $1/m$。

两边都是 $1/m$,loss 自然按 $1/m$ 下降,跟数据频率的具体分布几乎无关。 scaling law 之所以鲁棒,原因就在这里:指数不是源于数据,而源于 $m$ 维球面的几何性质本身。

唯一的例外是频率特别偏斜($\alpha$ 大)时,重要特征的几何会被压成 ETF-like、贡献很小,剩下的非重要特征贡献开始主导,指数会偏离 1。论文给的极端估计是 $\alpha_m \approx 2(\alpha - 1)$。

论文用一张图把弱叠加和强叠加的差异同时画出来:左边两个子图是弱叠加,loss 曲线随频率分布 $\alpha$ 变化,斜率各不相同;右边两个子图是强叠加,所有 $\alpha$ 下的 loss 曲线全部坍缩到 $1/m$ 同一条线。论文里灰点是真实 LLM,落在同一条线上。

toy model 与 scaling 行为:(a) 无叠加示意,(b) 弱叠加 loss 形态对频率分布敏感,(c) 强叠加示意,(d) 强叠加下 loss 普遍按 $1/m$ 下降,灰点是真实 LLM

与真实 LLM 对比

论文扒了 OPT、GPT2、Qwen、Pythia 四个模型族,把 token 当"原子特征”,看 language model head 的 $W$ 矩阵。两项检查:

  1. 归一化后行向量的平方重叠均值是不是按 $1/m$ 下降。是。
  2. cross-entropy loss 跟 $1/m$ 是不是近似线性。也是。

直接拟合得到 $\alpha_m = 0.91 \pm 0.04$。再从 Chinchilla 的数据推算,模型规模 $N \propto m^{2.52}$、$\alpha_N = 0.35$,反推 $\alpha_m \approx 0.88$。两者都贴近 1,跟强叠加理论一致。

token 频率近似 Zipf($\alpha \approx 1$),属于"较平"那一档,刚好落在 $\alpha_m \approx 1$ 的稳定区。

论文把四个模型族画在一张图里:左边是 language model head 的平方重叠随 $1/m$ 下降的散点,右边是 cross-entropy loss 随 $1/m$ 的拟合线。不同颜色不同模型族,不同形状不同评测集,曲线斜率几乎一致,拟合出来的 $\alpha_m = 0.91 \pm 0.04$ 就是从右图所有线一起回归得到的。

真实 LLM 验证:(a) language model head 的平方重叠按 $1/m$ 下降,(b) 模型相关 loss 拟合得到 $\alpha_m = 0.91 \pm 0.04$,跨模型族、跨评测集一致

几个可证伪的预测

把 scaling law 的鲁棒性归因到几何之后,立刻能推出三件以前没人正面回答的事:

  • scaling law 什么时候会失效:只要把 representation disentangle 掉、退出强叠加 regime,$1/m$ 律就会垮。或者模型维度 $m$ 逼近词表大小(特征 = token 的极端假设),表示瓶颈消失,宽度方向的 loss 也不再是幂律。换句话说,幂律是"几何拥挤"的产物,不挤了就没了。
  • 指数 $\alpha_m > 1$ 能不能拿到:理论给的是 $\alpha_m \approx 1$ 上限,想更陡只能让数据频率分布特别偏斜。自然语言是 Zipf($\alpha \approx 1$),所以指数被卡在 1 附近,这也解释了为什么所有人测出的 scaling 指数都差不多,不是巧合。
  • 深度怎么进来:论文猜测总 loss 可拆成宽度部分 $f_m(m)$ 和深度部分 $f_\ell(\ell)$,宽度部分由 superposition 主导。Chinchilla 最优配比下两部分要平衡,所以实测 $\alpha_m \approx 1$ 反映的是宽度+深度联合优化的结果,不是宽度单独的极限。

局限性

  • toy model 是 autoencoder 不是 transformer。把 token 当原子特征只是一阶近似,真实 LLM 里"特征"更可能是 token 组合或抽象概念,论文也承认这是简化。
  • 强叠加下重要特征的 $W_i$ 配置只用 ETF 类比定性描述,没有严格解析解,没法解释训练动力学(loss 随训练步数怎么走)。
  • 数据 / 训练步数维度的 scaling 没覆盖。论文猜想强叠加 regime 下数据 scaling 跟"角度分布如何演化"有关,但还需要更细的分析工具。
  • LLM 的 loss 跟 $1/m$ 线性外推不过原点,残留项归因到"语言本身的不可约不确定性",但这部分没给独立证据。

小结

这篇论文把两条平行的研究线连接在一起:Anthropic 那条 interpretability / superposition,跟 Kaplan / Chinchilla 那条经验 scaling law。“为什么 scaling law 鲁棒"从一句经验观察变成了几何机理,还给出了可证伪的预测:换数据分布、disentangle 表示、突破 vocabulary 量级,幂律都会变形。从微观机理对 scaling law 进行解释的工作不多,本文的研究比拟合曲线本身有意思。