DoReMi:用小模型的 DRO 轨迹指导大模型预训练配比
DoReMi(DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining,NeurIPS 2023,Google DeepMind + Stanford)是预训练数据配比优化的早期工作之一,后续 RegMix、DoGE、Online Data Mixing 等方法都在某种程度上回应或改进了它提出的框架。核心思路:用 Group DRO(Group Distributionally Robust Optimization,Sagawa et al. 2020 提出的最小化最差组损失的在线优化算法)在 280M 的小代理模型上动态调整域权重,取训练轨迹上的平均权重,再用这组权重去训练 8B 的大模型。整个配比搜索(reference + proxy 两个 280M 模型)的额外计算量只占 8B 主模型训练的约 8%,但主模型下游准确率提升约 6.5 个点,达到基线最终准确率所需的训练步数减少到约 1/2.6。