NeurIPS 2025 Best Paper Runner-up:用 superposition 解释 scaling law
Neural scaling law 的指数 $L \propto N^{-\alpha}$ 跨模型族、跨数据集、跨任务都差不多,但这条幂律为什么是幂律、指数从哪来,一直没搞清楚机制。已有解释多数是"假设数据的特征/技能重要性按幂律分布,loss 自然就是幂律",也就是说之前的理解是幂律来自数据本身。
NeurIPS 2025 Best Paper Runner-up Superposition Yields Robust Neural Scaling 研究发现这个问题跟几何表示相关。LLM 的隐藏维度 $m$ 远小于要表示的特征数 $n$,$n$ 个特征向量被迫挤进 $m$ 维空间,互相之间的干扰量级就是 $1/m$,loss 自然也就按 $1/m$ 下降。论文在 Anthropic 的 toy model 上加了一个旋钮,能独立调节叠加强弱,只要叠加足够充分,这条 $1/m$ 律就稳定成立,跟数据频率分布的具体形态几乎无关。换句话说,scaling law 的指数和鲁棒性都来自 $m$ 维球面的几何,而不是数据。