[ICLR 2025] RegMix:数据配比的“回归”之道

在LLM训练中,预训练语料的配比一度被认为是核心竞争力,主要凭感觉:感觉 Wikipedia 高质量就上采样,感觉 Common Crawl 噪声大就降权。但当数据源从几个增长到几百个,token 总量到 T 级别,这套打法就撑不住了。已有的自动方法(DoReMi、DoGE、Online Data Mixing 等)多数是训一个不算小的 proxy 模型,看它的训练动态动态调整权重,proxy 自身可能就要烧上百 B token。

RegMix(Data Mixture as Regression for Language Model Pre-training,ICLR 2025)提出了一种新方法:训几百个 1M 参数的小代理模型,每个用一种随机配比,把 (mixture, validation loss) 当成回归数据,拟合一个 LightGBM,再用它在配比空间里搜最优解。512 个 1M 模型每个训 1B token,加起来的 FLOPs 约为一个 1B 模型的 2%,却能在 64 个 1B/25B token 的候选模型里准确预测出最优配比。推到 7B/100B token,平均 13 个下游任务比 Pile 原始人工配比高约 2 个点。Pile 数据集上的不同配比,单任务的差距可以拉到 14.6 个点,论文用这个数字说明"配比选错代价很大"。

论文链接: arxiv.org/abs/2407.01492

核心假设:rank invariance

整套方法基于一个经验假设:不同配比之间的相对排名,在模型规模和训练 token 数变化时保持稳定。论文里管它叫 rank invariance hypothesis。换句话说,配比 A 在 1M 模型上比配比 B 好,那它在 1B 甚至更大模型上多半也比 B 好。

用小模型代理大模型,方法之间的差别在于"小模型上看到的现象能多大程度搬到大模型上"。最严苛的要求是 loss 数值能直接外推,比如 scaling law 拟合一条 N → L 的曲线,然后外推到大模型上预测 loss。RegMix 只需要一个更弱的条件:配比之间的相对名次不变。小模型上 A 配比比 B 好,大模型上仍然 A 比 B 好即可,至于 loss 差多少不重要。

论文用 Spearman 秩相关系数 $\rho$ 量化排名的稳定性。具体测法:在 17 个 Pile 子集上随机采几百种配比,训 512 个 1M 参数的小模型,每个吃 1B token,记下每个模型在 Pile-CC 上的 loss。用配比当输入、loss 当输出,训一个 LightGBM。然后另挑一批没出现过的配比,分别去训 1M、60M、1B 三档模型,把实际排名和 LightGBM 预测的排名做 Spearman 相关:

测试模型Linear $\rho$LightGBM $\rho$
1M / 1B tokens90.0898.45
60M / 1B tokens89.2698.64
1B / 25B tokens88.0197.12

用 1M 模型拟合出来的 LightGBM,去预测 1B/25B token 模型的实际损失排名,两组排名的 Spearman 相关度有 97%。模型大了 1000 倍、token 多了 25 倍,预测仍然准。这是 rank invariance 假设最直接的证据,也支撑了整个流程的可行性。论文在补充实验里进一步把这个表格扩展到 280M / 5B token 的中间点,证明矩阵里任何两个 cell 之间相关系数都不低于 0.9。

RegMix 流程

RegMix 流程:训小模型 → 拟合回归 → 模拟搜索 → 训大模型

整套方法分四步:

采样配比:从 Dirichlet 分布里采样几百个配比。$\alpha$ 参数等于"领域可用 token 数的归一化向量乘以一个 0.1 到 5.0 之间的因子",这样既能覆盖极端稀疏配比(某个域几乎全占),也能覆盖接近均匀的配比,而采样的期望分布还反映各域可用 token 的实际分布,让"给只有 1% token 的域分到 50% 权重"这种不可执行的方案出现概率被压低。

训代理模型:用每个配比训一个 1M 参数的 TinyLlama,各 1B token,512 个模型可以并行训练。

拟合回归:以配比向量为输入特征,以代理模型在某个 target domain 上的 validation loss 为目标值,拟合一个回归模型。论文比较了 ridge regression 和 LightGBM 两种方法,LightGBM 在 1M / 1B token 的预测上把 Spearman $\rho$ 从 90.08 推到 98.45。target 的选择会决定大模型最终倾向于哪个分布,下面会单独讨论。

模拟搜索 + 训大模型:用拟合好的回归模型在配比空间里跑大规模 simulation(论文实验跑 100 万个候选配比只要不到 10 CPU 秒),取预测值最低的 top-100 配比取平均,作为最终大规模训练用的配比。

目标域的选择

回归的 target 选哪个域的 loss,直接决定最终配比。如果同时压低所有域的 loss,多目标可能互相打架。论文最后选择只优化 Pile-CC(Common Crawl 的子集)的 validation loss,原因在于在 64 个 1B/25B token 模型上,跨 14 个下游任务统计相关性,Pile-CC validation loss 与下游任务的负相关在所有域里最高,HellaSwag 上接近 1.0。Wikipedia 的相关性反而明显弱,尽管 GPT-3 时代普遍把 Wikipedia 视为"高质量代表"。

这条经验和近年一些其他工作的发现相符:多样的网页混合体比单一高质量百科更能反映模型整体能力。论文进一步把 Pile-CC 拆到 URL 级别,在 C4-100Domain 上验证了 85% 以上的 URL 域和 Pile-CC 整体的下游相关性都很强,说明 Pile-CC 的强相关并非偶然,应该是因为它的话题覆盖度较广的原因。

实际操作里 RegMix 给 Pile-CC 分配了约 0.87 的权重,剩下 16 个域瓜分 13%。论文为此专门做了一组对比:直接 Pile-CC Only 训练,RegMix 自动搜出来的配比,以及人工配比、PPL 过滤、ODM、DoReMi 这些基线。结果是 Pile-CC Only 平均分 46.8,RegMix 47.3,前者已经接近后者,而 DoReMi 是 46.8,所需 FLOPs 是 RegMix 的 10 倍以上(3.7e19 vs 3.5e18)。也就是说,配比里那 13% 的非 Pile-CC 部分仍贡献了约 0.5 分。

为了说明 RegMix 在分布外场景里仍能用,论文又跑了一组"训练时完全排除 Pile-CC,只用剩下 16 个域去优化 Pile-CC validation loss"的实验,RegMix 在这种 out-of-distribution 设定下依然超越所有基线。

代理模型数 vs 每个代理模型的 token 数

固定 FLOPs 预算时,是该训更多代理模型,还是该让每个代理模型多吃 token?论文在 1B token 预算内做了细颗粒度扫描:

代理模型数比单模型 token 数更重要

横轴是每个代理模型训的 token 数,曲线区分 64/128/512 个代理。结论是当每个代理超过约 0.25B token 后,加 token 几乎不再涨秩相关;而加代理模型数(从 64 到 512)始终在涨。论文给了一个反直觉的对比:512 个代理各训 0.2B token 比 128 个代理各训 0.8B token 表现还好,尽管两者总 FLOPs 接近。

两个方向卡在不同瓶颈。多给一个代理 token,是让它的 loss 估计更准;但 RegMix 只用排名,loss 精度抠得再细,排名也不会变。多采一组配比训一个新代理,则是给回归模型多一个训练样本,而配比空间是十几维的,样本越多 LightGBM 拟合得越好。所以加代理数始终在涨。这直接决定了落地策略:可以更激进地并行化,把 wall-clock 压短。

论文还对比了 512 个 1M 代理和 128 个 1B 代理(FLOPs 大几个量级)两套方案。最终训出的 7B 模型在 13 个任务上几乎打平(56.5 vs 56.4 平均分),所以论文建议起步直接用 1M 量级的极小代理。

域间交互

把 LightGBM 换成 linear regression,预测准度差一些,但好处是每个回归系数都有明确的物理含义:第 $i$ 个训练域多加一点权重,第 $j$ 个验证域的 loss 会涨还是降,看系数符号就知道。论文把整张系数矩阵画成热力图,看到了不少和直觉冲突的结果。一个典型例子是 PhilPapers:它对所有其它域的 loss 都呈现正向贡献。这种规律人工不容易发现,因为 PhilPapers 在 Pile 里只是个小众的哲学论文子集。

更宏观地说,论文画的 1M 训练日志散点图显示:除了 DM Mathematics 这种分布极其孤立的域,权重和 loss 大致呈 log-log 直线关系,多数域的散点都画不出干净的曲线,权重涨 loss 不一定降,不同配比下还会出现非单调跳变。这是论文标题里那句 “transcend scaling laws” 的具体含义:单域 power law 形式不足以描述配比的整体效应,需要把所有域作为联合输入一起建模。

下游任务上的实际表现

把 RegMix 选出来的配比铺到 1B/25B token 和 7B/100B token 上:

1B/25B token 时,14 个公共评测平均分 47.3,超过 Pile 人工配比 45.1、DoReMi 46.8、PPL 过滤 46.2、ODM 45.0。具体到 HellaSwag,RegMix 比人工配比高 6.8 个点。

7B/100B token 时,13 个评测平均分 56.5,高于人工配比 54.5 约 2 个点。具体到能反映规模 scaling 行为的任务上(HellaSwag、PiQA、Lambada 等),RegMix 在前 25B/50B token 阶段就达到了人工配比训完整 100B 后的分数,论文记的是大多数 benchmark 加速约一半,PiQA 加速近 75%。但对于不随 token 上涨的任务如 MultiRC,无论哪种配比都难以拉开差距。

局限性

rank invariance 假设的验证规模上限是 1B 参数。3B 及以上需要训 64 个 50B token 的模型才能做有统计意义的相关性检验,相当于一个 3B 模型训 3.2T token 的算力,作者算力不够。微软 MAI-Thinking-1 报告里给出过一个 23B 规模的 rank non-invariance 反例(stem-heavy 和 code-heavy 两个配比的曲线在 20T token 中段交叉),说明这个假设在大规模上不总是成立。

域必须是已知的。如果数据没有明确的 domain label,RegMix 没法直接用。网页数据上这条限制最棘手,因为爬下来的数据本来就没有现成的 domain 标签,FineWeb 那种用 URL 来定义域就是个折中方案。

代理模型必须和大模型用同一个 tokenizer。换 tokenizer 后域权重不能直接搬,跨项目复用配比比较麻烦。

数据无限假设。RegMix 默认每个域有无限可用 token,所以才能给 Pile-CC 配 0.87 这种夸张权重。MAI-Thinking-1 等更大规模训练里,多数域跑不到 0.5 epoch 就已经把可用数据吃光,配比上限被实际可用 token限制住了。