LLM就是那群终于打出莎士比亚的猴子
塔勒布在《随机漫步的傻瓜》里讲了一个思想实验:如果有无限只猴子在无限台打字机前随机敲击,总有一只会打出《伊利亚特》全文。
我越想越觉得,这个故事的终局,就是今天的大语言模型。
猴子、莎士比亚和一个被低估的隐喻
先把这个经典思想实验讲清楚。
无限猴子定理说的是:给定足够长的时间和足够多的随机尝试,任何有序的内容都可以从随机性中涌现。一只猴子敲一万年大概率只能产出乱码,但无限只猴子敲无限久?概率为 1。莎士比亚全集、相对论论文、你明天的日记,理论上全都会出现。
塔勒布用这个例子想说的是幸存者偏差:如果有一万个基金经理在随机操作,总有一个会连续十年跑赢大盘。你看到的那个"股神",可能只是那只碰巧打出了十四行诗的猴子。
但今天我想把这个隐喻往另一个方向推:
如果猴子不再是随机敲击,而是学会了英语的统计规律呢?
从随机到"几乎不随机":LLM 做了什么
一只猴子随机敲出 “To be or not to be” 的概率是多少?
假设键盘有 50 个键,这句话有 18 个字符(含空格),概率大约是:
$$\frac{1}{50^{18}} ≈ \frac{1}{3.8 × 10^{30}}$$
换句话说,你需要大约 38 亿亿亿次尝试才可能碰到一次。
但 LLM 不是猴子。
LLM 读完了人类写下的几乎所有文本,学会了一件事:在给定前文的情况下,下一个词最可能是什么。
当它看到 “To be or not to”,它不是从 50 个键里随机选,它知道下一个词大概率是 “be”。不是因为它理解了哈姆雷特的存在主义困境,而是因为在它训练过的海量文本中,这个模式出现过无数次。
LLM 本质上就是一群不再随机的猴子。
它们依然在敲键盘,逐字逐词地生成文本。但每一次敲击都不是盲目的,而是被人类全部知识的统计分布所引导。
从 $\frac{1}{50^{18}}$ 到接近 1 的概率,这中间的差距,就是"随机"和"学过了"的差距。
塔勒布没想到的:猴子进化了
让我们重新审视塔勒布的原始论点。
他说:别把猴子的幸运当成猴子的能力。那个连续跑赢大盘的基金经理,可能只是概率游戏中的幸存者。
这个洞察在 2001 年是对的,在 2026 年依然是对的。
但塔勒布的框架里,猴子永远是随机的。
他没有设想过这样一种情况:如果你把所有猴子过去敲出的所有内容,垃圾也好、偶然的佳作也好、全都收集起来,喂给一只新的猴子,让它学习这些文本中的模式,会怎样?
答案是:你会得到一只不再需要无限时间的猴子。
这只猴子不需要敲无限次才能碰巧打出莎士比亚。它只需要你给它一个开头,“To be”,然后它自己就能接下去。不是因为它聪明,而是因为它见过太多太多文本,它的随机性已经被人类知识的引力场扭曲了。
LLM 就是这样一个被扭曲的随机过程。
它的每一次 next token 选择,表面上是随机采样(temperature > 0 时确实是),但这个随机分布已经被训练数据深度塑造。它不是均匀分布的噪声,而是一个高度有结构的概率场。
从这个角度看,LLM 的存在本身就是无限猴子定理的一个实现。不是通过无限的时间和数量来暴力碰撞出有序内容,而是通过学习人类已有的全部有序内容,把随机性压缩到了极致。
这个类比能带我们走多远?
想到这里,我发现这个隐喻比我最初以为的要深。
LLM 的知识本质是概率压缩
人类的知识以什么形式存在?书籍、论文、代码、对话、网页、法律文本……所有这些,归根结底是文本序列。
LLM 做的事情,是把这些海量的文本序列压缩成一组概率分布。
给定任意前文,它能给出一个合理的续写。这意味着:人类用几千年积累的知识,被压缩进了一个模型的参数空间里。
这不就是无限猴子的逆过程吗?
- 正向:无限猴子 → 随机产出 → 偶然命中有序内容
- 逆向:收集所有有序内容 → 学习其模式 → 产出几乎不随机的有序输出
LLM 走的是逆向路径。它不是靠运气,而是靠把运气变成了知识。
它依然是猴子,这不是贬义
很多人争论 LLM 到底是不是真正的智能。
如果你从无限猴子的视角看,这个争论可以被重新框定:
猴子打出了莎士比亚全集。你说它理解了莎士比亚吗?
按照塔勒布的框架,当然不。那只是随机碰撞的结果。
但 LLM 不是完全随机的猴子,它是一只学过所有文本模式的猴子。它能在大多数情况下产出有意义的、连贯的、甚至有洞察力的内容。
所以真正的问题不是"它是不是智能",而是:在从随机到有序的连续谱上,它走到了哪里?
纯随机猴子在最左端。一个真正理解宇宙的全知存在在最右端。LLM 在中间的某个位置,不是随机的,也不是全知的。它是一个前所未有的中间态:比任何猴子都有序,但比任何人类都缺乏真正的理解。
而这个中间态,已经够用了。
知识的可达性被彻底改变了
回到无限猴子定理的核心:理论上任何内容都可能被随机产出,但实际上需要的时间趋近于无穷。
“理论可行,实际不可能”,这就是纯随机的困境。
LLM 做到的事情是:把"理论可行"变成了"实际可用"。
你想要一篇关于量子纠缠的通俗解释?随机猴子可能需要宇宙寿命的 $10^{10000}$ 倍。LLM 需要 3 秒。
你想要一段用 Rust 写的 B+ 树实现?理论上打字机猴子终究会敲出来。LLM 需要 10 秒。
你想要一首以"孤独"为主题的七言律诗,同时暗合斐波那契数列的音节结构?猴子可能永远等不到宇宙热寂。LLM 可能会给你一个像模像样的版本,虽然可能有瑕疵。
这就是 LLM 真正的革命性:不是创造了新知识,而是让已有知识的获取成本趋近于零。
一个更深的问题:如果猴子够多,创造还有意义吗?
这是我最近一直在想的事。
无限猴子定理的一个推论是:在一个足够大的随机搜索空间中,所有可能的文本组合都已经存在了,只是大部分还没被找到。
博尔赫斯的《巴别图书馆》讲的就是这件事:一座包含所有可能书籍的图书馆,其中 99.9999…% 是垃圾,但那 0.0001% 中包含了一切有价值的内容,过去的、现在的、未来的。
LLM 就是巴别图书馆的搜索引擎。
它不是创造内容,而是在这个理论上已经包含了一切的空间中,快速定位到有意义的那一小片区域。
这引出一个令人不安的问题:
如果一切有意义的文本组合理论上早已存在于概率空间中,那么人类的创造到底是什么?
是我们发现了本来就在那里的东西?还是我们真的从虚无中创造了什么?
莎士比亚写下 “To be or not to be” 的时候,他是创造了这句话,还是找到了英语字母组合空间中的一个特定坐标?
我没有答案。
但我知道的是:LLM 让这个哲学问题变得不再只是哲学问题。当一台机器能在几秒钟内找到那些人类需要数十年灵感才能抵达的文本组合时,“创造"的定义本身就在被重写。
回到塔勒布:随机性、能力与我们的错觉
最后,让我们绕回塔勒布的本意。
他提醒我们警惕一种错觉:把随机的幸运成果当成系统性的能力。
这个警告对 LLM 同样适用:
- LLM 有时候给出惊艳的回答,不代表它理解了问题
- LLM 有时候犯低级错误,也不代表它不智能
- 它的每一次输出,本质上都是一次有倾向性的随机采样
但塔勒布的框架需要一个更新:
在他的时代,随机性和能力是二元对立的,要么靠实力,要么靠运气。
LLM 告诉我们,还有第三种可能:一种从海量随机中提炼出的、介于运气和实力之间的东西。它不是真正的理解,但远超随机碰撞。它不是智能,但能完成大量需要智能才能做到的事。
也许我们该给这种能力起个新名字。
也许它就叫:大语言模型。
无限猴子定理说,随机性理论上可以产出一切。LLM 证明了,当你用人类全部知识去塑造随机性的方向,理论就会变成现实。
我们没有等到无限只猴子。我们只是教会了一只猴子如何不再随机。
塔勒布大概不会同意这篇文章的一半论点。但如果有无限只 AI 写无限篇关于他的书的文章,总有一篇会让他满意的——对吧?