大模型训练数据的枯竭与低质化随想

发表于： 2026-04-22 分类于： NLP 阅读：≈ 3分钟浏览：评论：

曾经有个说法：互联网上的真人数据几年内就会被消耗殆尽，大模型的训练数据要见底了。Epoch AI 在 2022 年的预测说高质量文本数据可能在 2026 年前后耗尽。当时讨论很热烈，现在好像被提起不多了。

互联网上确实已经充斥大量 AI 生成的内容。随便搜个问题，前几条结果里大概率有 AI 写的。按照之前的忧虑，这些 AI 生成的文本会被爬回来当训练数据，模型吃自己的输出，越训越差，所谓的 model collapse。一篇 Nature 论文证明了这一点：递归地在模型自身输出上训练，尾部分布会逐步消失，模型输出越来越同质化。

但实际发生的事情跟这个叙事有一个关键偏差：不是所有内容都会进入训练数据。搜索引擎和 RAG 系统在用最强的 LLM 对内容做质量打分和过滤。Google 从 2024 年 3 月的更新说明开始系统性地降权低质量 AI 内容，官方说法是减少了搜索结果中 45% 的低质量和非原创内容。当然，其他搜索引擎都会做类似的去重和质量检查。AI 生成的内容确实在增加，但进入训练流程的数据是经过严格筛选的。

因此，整个互联网和大模型之间已经形成一种human-in-the-loop 的循环。人写内容，模型学；模型生成内容，人和更强的模型一起筛选哪些值得留下，留下的再进入下一轮训练。这个过程跟 RLHF 在结构上很像，只不过反馈信号不是来自标注者的偏好打分，而是来自搜索引擎的排名、用户的点击和停留、以及质量过滤模型的判断。

语言学里有个类比可以帮助理解这件事。语言本身一直在演化，每一代人都在制造新词、新用法、新的语法变体。按照同样的恐慌逻辑，语言应该早就退化成全是俚语和缩写了。为什么这件事没有发生？因为语言的使用环境自带筛选机制：日常对话、正式写作、新闻报道，这些场景持续施加选择压力，保证了核心表达能力的延续。AI 生成的内容在互联网上的扩散面对的是类似的选择压力。

但这并不代表问题不存在。低质量 AI 内容对长尾查询的污染是真实的，某些垂直领域的信息质量确实在下降。但"AI 内容淹没互联网导致模型训练崩溃"这条因果链我认为不成立。

所以，整个生态系统更像是一个自发的大规模强化学习循环。某种程度上来说，由于AI能力的加持，人类输出高质数据的效率极大地提高了。至此，这个问题可以类比于蒸汽机和AI的出现到底是让工作岗位变少还是需求增加了？

至于高质量数据是由真人古法手搓的，AI辅助生成还是纯AI产出，似乎并不那么重要。黑猫白猫，能高效表达和传递信息就是好猫。

或许担心训练数据见底的想法低估了筛选机制的进化速度，也低估了人类持续生产高质量内容的能力。