大模型训练数据的枯竭与低质化随想
曾经有个说法:互联网上的真人数据几年内就会被消耗殆尽,大模型的训练数据要见底了。Epoch AI 在 2022 年的 预测 说高质量文本数据可能在 2026 年前后耗尽。当时讨论很热烈,现在好像被提起不多了。
互联网上确实已经充斥大量 AI 生成的内容。随便搜个问题,前几条结果里大概率有 AI 写的。按照之前的忧虑,这些 AI 生成的文本会被爬回来当训练数据,模型吃自己的输出,越训越差,所谓的 model collapse。一篇 Nature 论文 证明了这一点:递归地在模型自身输出上训练,尾部分布会逐步消失,模型输出越来越同质化。
但实际发生的事情跟这个叙事有一个关键偏差:不是所有内容都会进入训练数据。搜索引擎和 RAG 系统在用最强的 LLM 对内容做质量打分和过滤。Google 从 2024 年 3 月的更新 说明开始系统性地降权低质量 AI 内容,官方说法是减少了搜索结果中 45% 的低质量和非原创内容。当然,其他搜索引擎都会做类似的去重和质量检查。AI 生成的内容确实在增加,但进入训练流程的数据是经过严格筛选的。
因此,整个互联网和大模型之间已经形成一种human-in-the-loop 的循环。人写内容,模型学;模型生成内容,人和更强的模型一起筛选哪些值得留下,留下的再进入下一轮训练。这个过程跟 RLHF 在结构上很像,只不过反馈信号不是来自标注者的偏好打分,而是来自搜索引擎的排名、用户的点击和停留、以及质量过滤模型的判断。
语言学里有个类比可以帮助理解这件事。语言本身一直在演化,每一代人都在制造新词、新用法、新的语法变体。按照同样的恐慌逻辑,语言应该早就退化成全是俚语和缩写了。为什么这件事没有发生?因为语言的使用环境自带筛选机制:日常对话、正式写作、新闻报道,这些场景持续施加选择压力,保证了核心表达能力的延续。AI 生成的内容在互联网上的扩散面对的是类似的选择压力。
但这并不代表问题不存在。低质量 AI 内容对长尾查询的污染是真实的,某些垂直领域的信息质量确实在下降。但"AI 内容淹没互联网导致模型训练崩溃"这条因果链我认为不成立。
所以,整个生态系统更像是一个自发的大规模强化学习循环。某种程度上来说,由于AI能力的加持,人类输出高质数据的效率极大地提高了。至此,这个问题可以类比于蒸汽机和AI的出现到底是让工作岗位变少还是需求增加了?
至于高质量数据是由真人古法手搓的,AI辅助生成还是纯AI产出,似乎并不那么重要。黑猫白猫,能高效表达和传递信息就是好猫。
或许担心训练数据见底的想法低估了筛选机制的进化速度,也低估了人类持续生产高质量内容的能力。