NeurIPS 2025 Best Paper Runner-up：用 superposition 解释 scaling law

发表于： 2026-06-03 分类于： NLP 阅读：≈ 8分钟浏览：评论：

Neural scaling law 的指数 $L \propto N^{-\alpha}$ 跨模型族、跨数据集、跨任务都差不多，但这条幂律为什么是幂律、指数从哪来，一直没搞清楚机制。已有解释多数是"假设数据的特征/技能重要性按幂律分布，loss 自然就是幂律"，也就是说之前的理解是幂律来自数据本身。

NeurIPS 2025 Best Paper Runner-up Superposition Yields Robust Neural Scaling 研究发现这个问题跟几何表示相关。LLM 的隐藏维度 $m$ 远小于要表示的特征数 $n$，$n$ 个特征向量被迫挤进 $m$ 维空间，互相之间的干扰量级就是 $1/m$，loss 自然也就按 $1/m$ 下降。论文在 Anthropic 的 toy model 上加了一个旋钮，能独立调节叠加强弱，只要叠加足够充分，这条 $1/m$ 律就稳定成立，跟数据频率分布的具体形态几乎无关。换句话说，scaling law 的指数和鲁棒性都来自 $m$ 维球面的几何，而不是数据。

论文地址： arxiv.org/abs/2505.10465

scaling law 的已有解释

之前 scaling law 的解释大致两类：

流形 / 函数拟合视角：模型越大越能覆盖数据流形，loss 由没覆盖到的部分决定，指数取决于数据本身有多"厚"或者特征衰减得多快。
离散 skill / 特征学习视角（如 Quanta-style 模型）：网络逐个学到可数的"技能"，技能重要性按幂律分布，模型越大覆盖的 skill 越多。

这两类有个共同点：都要求数据本身的特征频率/技能重要性是幂律分布，scaling 才会是幂律，即"power law in, power law out"。

但这跟现实对不上。真实 LLM 跨任务、跨数据集都能拟出几乎一样的 scaling，跟数据形态关系不大。已有的认识无法解释这种鲁棒性。

superposition 是什么

要理解论文的论证链，先把 superposition 讲清楚。Anthropic 2022 年那篇 toy model 提出来的：神经网络的隐藏空间维度 $m$ 有限，但语言里要表示的特征数 $n$（token、概念、组合等）远大于 $m$。每个特征绑到一个隐藏向量 $W_i$ 上，$n$ 个向量不可能两两正交，必须做取舍。

两种妥协方式：

弱叠加（weak superposition）：只挑最重要的 $m$ 个特征，给它们一组接近正交的基。剩下的 $n - m$ 个特征直接扔掉（$W_i = 0$），输出时只能用全局均值兜底。
强叠加（strong superposition）：所有 $n$ 个特征都给一个非零的 $W_i$，但向量之间不可避免地有非零内积，互相干扰。模型靠 ReLU + 负偏置做"误差纠正"，把小的干扰压成零。

什么时候强叠加更划算？当特征足够稀疏（一个样本只激活少数特征），干扰大概率不会同时引爆，纠错容易奏效，全表示比丢掉一半划算。自然语言天然满足这个条件（一句话用到的 token 远少于词表），所以 LLM 实际上跑在强叠加 regime。

这个概念跟 scaling law 的关系是论文要建立的核心连接：模型 loss 跟"特征怎么塞进隐藏空间"直接相关。塞得多挤、向量间几何怎样，决定了 loss 怎么随 $m$ 变化。

toy model 与扫描方式

要把"叠加强度"变成可控变量，需要一个简单到能解析、又能体现 LLM 两条核心特征的模型：(1) 特征数远多于隐藏维度，(2) 特征频率不均。论文沿用 Anthropic 的 autoencoder toy model：

输入 $x \in \mathbb{R}^n$，每个分量 $x_i = u_i v_i$，$u_i \sim \mathrm{Bernoulli}(p_i)$ 控制是否激活，$v_i \sim U(0, 2)$ 控制激活强度。模型把 $x$ 压到 $m \ll n$ 维隐藏空间再重建，参数就是一个 $W \in \mathbb{R}^{n \times m}$ 加偏置 $b$。$W_i$（$W$ 的第 $i$ 行）就是特征 $i$ 在隐藏空间的表示向量。loss 是重建误差 $|y - x|_2^2$。特征频率假设按幂律 $p_i \propto 1/i^\alpha$ 分布，指数 $\alpha$ 控制分布有多陡——$\alpha$ 大，少数高频特征独占；$\alpha$ 小，频率更均匀。

论文做的关键改动是引入解耦的 weight decay 来独立控制叠加强度。正 weight decay 把大部分 $W_i$ 压到 0，模型只保留少量特征，进入弱叠加；负 weight decay 把所有 $|W_i|$ 拉向 1，所有特征都被表示，进入强叠加。有了这个旋钮，“叠加强度"和"频率分布"就成了两个可独立调的变量，能分别看 loss 跟 $m$ 的关系长什么样。

弱叠加：power law in, power law out

弱叠加下，前 $m$ 个最频繁特征被表示（论文里定义"已表示"为 $|W_i|^2 > 1/2$，对应比例记为 $\phi_{1/2}$，实测刚好 $\approx m/n$），其余被丢弃。loss 直接等于被丢弃特征的频率之和：

$$L \approx \langle v^2 \rangle \sum_{i > \phi_{1/2} n} p_i$$

代入 $p_i \propto 1/i^\alpha$（$\alpha > 1$ 时积分才收敛）做积分，得到 $L \propto m^{-(\alpha-1)}$，即模型指数 $\alpha_m = \alpha - 1$。这正是之前那些解释的结论，所以它们其实只覆盖了弱叠加这一种情况。

结论也很清楚：loss 是不是幂律完全取决于数据频率是不是幂律。

强叠加：几何决定的 $1/m$ 律

强叠加下 loss 的来源换了。所有特征都被表示，没有"丢弃"项；loss 全部来自表示向量之间的重叠。看最简单的情形，只有特征 $j$ 激活：理想输出 $y_i$ 应该等于 $x_i$（仅 $i=j$ 处非零），但实际 $y_i = \mathrm{ReLU}(W_i \cdot h + b_i) = \mathrm{ReLU}(W_i \cdot W_j + b_i)$。对非激活的 $i \neq j$，干扰项 $W_i \cdot W_j$ 进入输出造成误差，loss 跟 $(W_i \cdot W_j)^2$ 成正比。

于是问题变成纯几何：$n$ 个单位向量塞进 $m$ 维空间没法两两正交，它们之间夹角余弦的平方典型有多大？ 这个量直接决定 loss，跟训练动力学、跟具体频率分布都没关系。

两个独立的几何事实从两头夹出答案：

随便扔（下界）：在 $m$ 维球面上随机均匀撒 $n$ 个单位向量，任意两个夹角余弦的平方服从 $\mathrm{Beta}(1/2, (m-1)/2)$，均值就是 $1/m$，方差 $\sim 2/m^2$。这是高维空间的"近乎正交"现象——$m$ 越大，两个随机方向越倾向于互相垂直。哪怕完全不优化，量级也是 $1/m$。
最优排（上界）：人为构造 $n$ 个向量，让"两两中最大的那个重叠"尽可能小，这是个有解析解的优化问题，最优构造叫 Equiangular Tight Frame（ETF，等角紧框架；论文里写的是 “equal angle tight frame”，意思相同）。结论是最大重叠的下界 $\approx 1/\sqrt{m}$，平方仍是 $1/m$。也就是说，哪怕你拼命优化把向量排得最均匀，重叠也压不到 $1/m$ 以下。

下界（随便扔）和上界（最优排）都落在 $1/m$，所以无论训练出的 $W_i$ 长成什么样——随机也好、接近 ETF 也好——夹角余弦平方都跑不出这个量级。

论文实测验证了这点：范数大于 1 的那批 $W_i$（约 $m^2/2$ 个，对应较重要的特征）方差远小于随机向量、平均平方重叠精确落在 $1/m$；范数较小的那批没法用单一理论描述，但实测平方重叠也稳定服从 $1/m$。

两边都是 $1/m$，loss 自然按 $1/m$ 下降，跟数据频率的具体分布几乎无关。 scaling law 之所以鲁棒，原因就在这里：指数不是源于数据，而源于 $m$ 维球面的几何性质本身。

唯一的例外是频率特别偏斜（$\alpha$ 大）时，重要特征的几何会被压成 ETF-like、贡献很小，剩下的非重要特征贡献开始主导，指数会偏离 1。论文给的极端估计是 $\alpha_m \approx 2(\alpha - 1)$。

论文用一张图把弱叠加和强叠加的差异同时画出来：左边两个子图是弱叠加，loss 曲线随频率分布 $\alpha$ 变化，斜率各不相同；右边两个子图是强叠加，所有 $\alpha$ 下的 loss 曲线全部坍缩到 $1/m$ 同一条线。论文里灰点是真实 LLM，落在同一条线上。

与真实 LLM 对比

论文扒了 OPT、GPT2、Qwen、Pythia 四个模型族，把 token 当"原子特征”，看 language model head 的 $W$ 矩阵。两项检查：

归一化后行向量的平方重叠均值是不是按 $1/m$ 下降。是。
cross-entropy loss 跟 $1/m$ 是不是近似线性。也是。

直接拟合得到 $\alpha_m = 0.91 \pm 0.04$。再从 Chinchilla 的数据推算，模型规模 $N \propto m^{2.52}$、$\alpha_N = 0.35$，反推 $\alpha_m \approx 0.88$。两者都贴近 1，跟强叠加理论一致。

token 频率近似 Zipf（$\alpha \approx 1$），属于"较平"那一档，刚好落在 $\alpha_m \approx 1$ 的稳定区。

论文把四个模型族画在一张图里：左边是 language model head 的平方重叠随 $1/m$ 下降的散点，右边是 cross-entropy loss 随 $1/m$ 的拟合线。不同颜色不同模型族，不同形状不同评测集，曲线斜率几乎一致，拟合出来的 $\alpha_m = 0.91 \pm 0.04$ 就是从右图所有线一起回归得到的。

$真实 LLM 验证：(a) language model head 的平方重叠按 $1/m$ 下降，(b) 模型相关 loss 拟合得到 $\alpha_m = 0.91 \pm 0.04$，跨模型族、跨评测集一致$

几个可证伪的预测

把 scaling law 的鲁棒性归因到几何之后，立刻能推出三件以前没人正面回答的事：

scaling law 什么时候会失效：只要把 representation disentangle 掉、退出强叠加 regime，$1/m$ 律就会垮。或者模型维度 $m$ 逼近词表大小（特征 = token 的极端假设），表示瓶颈消失，宽度方向的 loss 也不再是幂律。换句话说，幂律是"几何拥挤"的产物，不挤了就没了。
指数 $\alpha_m > 1$ 能不能拿到：理论给的是 $\alpha_m \approx 1$ 上限，想更陡只能让数据频率分布特别偏斜。自然语言是 Zipf（$\alpha \approx 1$），所以指数被卡在 1 附近，这也解释了为什么所有人测出的 scaling 指数都差不多，不是巧合。
深度怎么进来：论文猜测总 loss 可拆成宽度部分 $f_m(m)$ 和深度部分 $f_\ell(\ell)$，宽度部分由 superposition 主导。Chinchilla 最优配比下两部分要平衡，所以实测 $\alpha_m \approx 1$ 反映的是宽度+深度联合优化的结果，不是宽度单独的极限。

局限性

toy model 是 autoencoder 不是 transformer。把 token 当原子特征只是一阶近似，真实 LLM 里"特征"更可能是 token 组合或抽象概念，论文也承认这是简化。
强叠加下重要特征的 $W_i$ 配置只用 ETF 类比定性描述，没有严格解析解，没法解释训练动力学（loss 随训练步数怎么走）。
数据 / 训练步数维度的 scaling 没覆盖。论文猜想强叠加 regime 下数据 scaling 跟"角度分布如何演化"有关，但还需要更细的分析工具。
LLM 的 loss 跟 $1/m$ 线性外推不过原点，残留项归因到"语言本身的不可约不确定性"，但这部分没给独立证据。

小结

这篇论文把两条平行的研究线连接在一起：Anthropic 那条 interpretability / superposition，跟 Kaplan / Chinchilla 那条经验 scaling law。“为什么 scaling law 鲁棒"从一句经验观察变成了几何机理，还给出了可证伪的预测：换数据分布、disentangle 表示、突破 vocabulary 量级，幂律都会变形。从微观机理对 scaling law 进行解释的工作不多，本文的研究比拟合曲线本身有意思。