[ICLR 2025] RegMix：数据配比的“回归”之道

发表于： 2026-06-15 分类于： NLP 阅读：≈ 7分钟浏览：评论：

在LLM训练中，预训练语料的配比一度被认为是核心竞争力，主要凭感觉：感觉 Wikipedia 高质量就上采样，感觉 Common Crawl 噪声大就降权。但当数据源从几个增长到几百个，token 总量到 T 级别，这套打法就撑不住了。已有的自动方法（DoReMi、DoGE、Online Data Mixing 等）多数是训一个不算小的 proxy 模型，看它的训练动态动态调整权重，proxy 自身可能就要烧上百 B token。

RegMix（Data Mixture as Regression for Language Model Pre-training，ICLR 2025）提出了一种新方法：训几百个 1M 参数的小代理模型，每个用一种随机配比，把 (mixture, validation loss) 当成回归数据，拟合一个 LightGBM，再用它在配比空间里搜最优解。512 个 1M 模型每个训 1B token，加起来的 FLOPs 约为一个 1B 模型的 2%，却能在 64 个 1B/25B token 的候选模型里准确预测出最优配比。推到 7B/100B token，平均 13 个下游任务比 Pile 原始人工配比高约 2 个点。Pile 数据集上的不同配比，单任务的差距可以拉到 14.6 个点，论文用这个数字说明"配比选错代价很大"。

论文链接： arxiv.org/abs/2407.01492

核心假设：rank invariance

整套方法基于一个经验假设：不同配比之间的相对排名，在模型规模和训练 token 数变化时保持稳定。论文里管它叫 rank invariance hypothesis。换句话说，配比 A 在 1M 模型上比配比 B 好，那它在 1B 甚至更大模型上多半也比 B 好。

用小模型代理大模型，方法之间的差别在于"小模型上看到的现象能多大程度搬到大模型上"。最严苛的要求是 loss 数值能直接外推，比如 scaling law 拟合一条 N → L 的曲线，然后外推到大模型上预测 loss。RegMix 只需要一个更弱的条件：配比之间的相对名次不变。小模型上 A 配比比 B 好，大模型上仍然 A 比 B 好即可，至于 loss 差多少不重要。

论文用 Spearman 秩相关系数 $\rho$ 量化排名的稳定性。具体测法：在 17 个 Pile 子集上随机采几百种配比，训 512 个 1M 参数的小模型，每个吃 1B token，记下每个模型在 Pile-CC 上的 loss。用配比当输入、loss 当输出，训一个 LightGBM。然后另挑一批没出现过的配比，分别去训 1M、60M、1B 三档模型，把实际排名和 LightGBM 预测的排名做 Spearman 相关：

测试模型	Linear $\rho$	LightGBM $\rho$
1M / 1B tokens	90.08	98.45
60M / 1B tokens	89.26	98.64
1B / 25B tokens	88.01	97.12

用 1M 模型拟合出来的 LightGBM，去预测 1B/25B token 模型的实际损失排名，两组排名的 Spearman 相关度有 97%。模型大了 1000 倍、token 多了 25 倍，预测仍然准。这是 rank invariance 假设最直接的证据，也支撑了整个流程的可行性。论文在补充实验里进一步把这个表格扩展到 280M / 5B token 的中间点，证明矩阵里任何两个 cell 之间相关系数都不低于 0.9。

RegMix 流程

整套方法分四步：

采样配比：从 Dirichlet 分布里采样几百个配比。$\alpha$ 参数等于"领域可用 token 数的归一化向量乘以一个 0.1 到 5.0 之间的因子"，这样既能覆盖极端稀疏配比（某个域几乎全占），也能覆盖接近均匀的配比，而采样的期望分布还反映各域可用 token 的实际分布，让"给只有 1% token 的域分到 50% 权重"这种不可执行的方案出现概率被压低。

训代理模型：用每个配比训一个 1M 参数的 TinyLlama，各 1B token，512 个模型可以并行训练。

拟合回归：以配比向量为输入特征，以代理模型在某个 target domain 上的 validation loss 为目标值，拟合一个回归模型。论文比较了 ridge regression 和 LightGBM 两种方法，LightGBM 在 1M / 1B token 的预测上把 Spearman $\rho$ 从 90.08 推到 98.45。target 的选择会决定大模型最终倾向于哪个分布，下面会单独讨论。

模拟搜索 + 训大模型：用拟合好的回归模型在配比空间里跑大规模 simulation（论文实验跑 100 万个候选配比只要不到 10 CPU 秒），取预测值最低的 top-100 配比取平均，作为最终大规模训练用的配比。

目标域的选择

回归的 target 选哪个域的 loss，直接决定最终配比。如果同时压低所有域的 loss，多目标可能互相打架。论文最后选择只优化 Pile-CC（Common Crawl 的子集）的 validation loss，原因在于在 64 个 1B/25B token 模型上，跨 14 个下游任务统计相关性，Pile-CC validation loss 与下游任务的负相关在所有域里最高，HellaSwag 上接近 1.0。Wikipedia 的相关性反而明显弱，尽管 GPT-3 时代普遍把 Wikipedia 视为"高质量代表"。

这条经验和近年一些其他工作的发现相符：多样的网页混合体比单一高质量百科更能反映模型整体能力。论文进一步把 Pile-CC 拆到 URL 级别，在 C4-100Domain 上验证了 85% 以上的 URL 域和 Pile-CC 整体的下游相关性都很强，说明 Pile-CC 的强相关并非偶然，应该是因为它的话题覆盖度较广的原因。

实际操作里 RegMix 给 Pile-CC 分配了约 0.87 的权重，剩下 16 个域瓜分 13%。论文为此专门做了一组对比：直接 Pile-CC Only 训练，RegMix 自动搜出来的配比，以及人工配比、PPL 过滤、ODM、DoReMi 这些基线。结果是 Pile-CC Only 平均分 46.8，RegMix 47.3，前者已经接近后者，而 DoReMi 是 46.8，所需 FLOPs 是 RegMix 的 10 倍以上（3.7e19 vs 3.5e18）。也就是说，配比里那 13% 的非 Pile-CC 部分仍贡献了约 0.5 分。

为了说明 RegMix 在分布外场景里仍能用，论文又跑了一组"训练时完全排除 Pile-CC，只用剩下 16 个域去优化 Pile-CC validation loss"的实验，RegMix 在这种 out-of-distribution 设定下依然超越所有基线。

代理模型数 vs 每个代理模型的 token 数

固定 FLOPs 预算时，是该训更多代理模型，还是该让每个代理模型多吃 token？论文在 1B token 预算内做了细颗粒度扫描：

横轴是每个代理模型训的 token 数，曲线区分 64/128/512 个代理。结论是当每个代理超过约 0.25B token 后，加 token 几乎不再涨秩相关；而加代理模型数（从 64 到 512）始终在涨。论文给了一个反直觉的对比：512 个代理各训 0.2B token 比 128 个代理各训 0.8B token 表现还好，尽管两者总 FLOPs 接近。

两个方向卡在不同瓶颈。多给一个代理 token，是让它的 loss 估计更准；但 RegMix 只用排名，loss 精度抠得再细，排名也不会变。多采一组配比训一个新代理，则是给回归模型多一个训练样本，而配比空间是十几维的，样本越多 LightGBM 拟合得越好。所以加代理数始终在涨。这直接决定了落地策略：可以更激进地并行化，把 wall-clock 压短。

论文还对比了 512 个 1M 代理和 128 个 1B 代理（FLOPs 大几个量级）两套方案。最终训出的 7B 模型在 13 个任务上几乎打平（56.5 vs 56.4 平均分），所以论文建议起步直接用 1M 量级的极小代理。

域间交互

把 LightGBM 换成 linear regression，预测准度差一些，但好处是每个回归系数都有明确的物理含义：第 $i$ 个训练域多加一点权重，第 $j$ 个验证域的 loss 会涨还是降，看系数符号就知道。论文把整张系数矩阵画成热力图，看到了不少和直觉冲突的结果。一个典型例子是 PhilPapers：它对所有其它域的 loss 都呈现正向贡献。这种规律人工不容易发现，因为 PhilPapers 在 Pile 里只是个小众的哲学论文子集。

更宏观地说，论文画的 1M 训练日志散点图显示：除了 DM Mathematics 这种分布极其孤立的域，权重和 loss 大致呈 log-log 直线关系，多数域的散点都画不出干净的曲线，权重涨 loss 不一定降，不同配比下还会出现非单调跳变。这是论文标题里那句 “transcend scaling laws” 的具体含义：单域 power law 形式不足以描述配比的整体效应，需要把所有域作为联合输入一起建模。

下游任务上的实际表现

把 RegMix 选出来的配比铺到 1B/25B token 和 7B/100B token 上：

1B/25B token 时，14 个公共评测平均分 47.3，超过 Pile 人工配比 45.1、DoReMi 46.8、PPL 过滤 46.2、ODM 45.0。具体到 HellaSwag，RegMix 比人工配比高 6.8 个点。

7B/100B token 时，13 个评测平均分 56.5，高于人工配比 54.5 约 2 个点。具体到能反映规模 scaling 行为的任务上（HellaSwag、PiQA、Lambada 等），RegMix 在前 25B/50B token 阶段就达到了人工配比训完整 100B 后的分数，论文记的是大多数 benchmark 加速约一半，PiQA 加速近 75%。但对于不随 token 上涨的任务如 MultiRC，无论哪种配比都难以拉开差距。

局限性

rank invariance 假设的验证规模上限是 1B 参数。3B 及以上需要训 64 个 50B token 的模型才能做有统计意义的相关性检验，相当于一个 3B 模型训 3.2T token 的算力，作者算力不够。微软 MAI-Thinking-1 报告里给出过一个 23B 规模的 rank non-invariance 反例（stem-heavy 和 code-heavy 两个配比的曲线在 20T token 中段交叉），说明这个假设在大规模上不总是成立。

域必须是已知的。如果数据没有明确的 domain label，RegMix 没法直接用。网页数据上这条限制最棘手，因为爬下来的数据本来就没有现成的 domain 标签，FineWeb 那种用 URL 来定义域就是个折中方案。

代理模型必须和大模型用同一个 tokenizer。换 tokenizer 后域权重不能直接搬，跨项目复用配比比较麻烦。

数据无限假设。RegMix 默认每个域有无限可用 token，所以才能给 Pile-CC 配 0.87 这种夸张权重。MAI-Thinking-1 等更大规模训练里，多数域跑不到 0.5 epoch 就已经把可用数据吃光，配比上限被实际可用 token限制住了。