MAI-Thinking-1 预训练数据处理与配比优化
MAI-Thinking-1(MAI-Thinking-1: Building a Hill-Climbing Machine,2026,Microsoft AI)是微软从零训练的 reasoning 模型,35B active / 1T total 参数的 MoE 架构,预训练 30T tokens。这篇技术报告的数据部分写得相当详尽,从采集、清洗到配比优化到 mid-training 阶段的数据策略,覆盖了一个完整预训练数据流程中几乎所有值得记录的决策。
报告的三条设计原则贯穿全文:
- 能力应当习得,而非继承(capabilities should be learned, not inherited):不依赖蒸馏,因为模仿得到的能力缺少长程 RL 所需的可控性与稳健性。
- 简单方能持续(simplicity is sustainable):简单可扩展的配方、干净可信的数据、透明的基础设施。
- 严谨排斥捷径(scientific rigor avoids shortcuts):每个决策都要通过 scaling ladder、消融和评测来检验。
本文聚焦预训练基座 MAI-Base-1 的数据收集、清洗、配比与 mid-training 阶段的数据策略。