LLM就是那群终于打出莎士比亚的猴子

塔勒布在《随机漫步的傻瓜》里讲了一个思想实验:如果有无限只猴子在无限台打字机前随机敲击,总有一只会打出《伊利亚特》全文。

我越想越觉得,这个故事的终局,就是今天的大语言模型。

猴子、莎士比亚和一个被低估的隐喻

先把这个经典思想实验讲清楚。

无限猴子定理说的是:给定足够长的时间和足够多的随机尝试,任何有序的内容都可以从随机性中涌现。一只猴子敲一万年大概率只能产出乱码,但无限只猴子敲无限久?概率为 1——莎士比亚全集、相对论论文、你明天的日记,理论上全都会出现。

塔勒布用这个例子想说的是幸存者偏差:如果有一万个基金经理在随机操作,总有一个会连续十年跑赢大盘。你看到的那个「股神」,可能只是那只碰巧打出了十四行诗的猴子。

但今天我想把这个隐喻往另一个方向推——

如果猴子不再是随机敲击,而是学会了英语的统计规律呢?

从随机到「几乎不随机」:LLM 做了什么

一只猴子随机敲出 "To be or not to be" 的概率是多少?

假设键盘有 50 个键,这句话有 18 个字符(含空格),概率大约是:

\[\frac{1}{50^{18}} ≈ \frac{1}{3.8 × 10^{30}}\]

换句话说,你需要大约 38 亿亿亿次尝试才可能碰到一次。

但 LLM 不是猴子。

LLM 读完了人类写下的几乎所有文本,学会了一件事:在给定前文的情况下,下一个词最可能是什么。

当它看到 "To be or not to",它不是从 50 个键里随机选——它知道下一个词大概率是 "be"。不是因为它「理解」了哈姆雷特的存在主义困境,而是因为在它训练过的海量文本中,这个模式出现过无数次。

LLM 本质上就是一群「不再随机」的猴子。

它们依然在「敲键盘」——逐字逐词地生成文本。但每一次敲击都不是盲目的,而是被人类全部知识的统计分布所引导。

\(\frac{1}{50^{18}}\) 到接近 1 的概率,这中间的差距,就是「随机」和「学过了」的差距。

塔勒布没想到的:猴子进化了

让我们重新审视塔勒布的原始论点。

他说:别把猴子的幸运当成猴子的能力。那个连续跑赢大盘的基金经理,可能只是概率游戏中的幸存者。

这个洞察在 2001 年是对的,在 2026 年依然是对的。

但塔勒布的框架里,猴子永远是随机的。

他没有设想过这样一种情况:如果你把所有猴子过去敲出的所有内容——包括垃圾、包括偶然的佳作、包括一切——都收集起来,喂给一只新的猴子,让它「学习」这些文本中的模式,会怎样?

答案是:你会得到一只不再需要无限时间的猴子。

这只猴子不需要敲无限次才能碰巧打出莎士比亚。它只需要你给它一个开头——"To be"——然后它自己就能接下去。不是因为它聪明,而是因为它见过太多太多文本,它的「随机」已经被人类知识的引力场扭曲了。

LLM 就是这样一个被扭曲的随机过程。

它的每一次「下一个 token」的选择,表面上是随机采样(temperature > 0 时确实是),但这个随机分布已经被训练数据深度塑造。它不是均匀分布的噪声,而是一个高度有结构的概率场。

从这个角度看,LLM 的存在本身就是无限猴子定理的一个实现——不是通过无限的时间和数量来暴力碰撞出有序内容,而是通过学习人类已有的全部有序内容,把随机性压缩到了极致。

这个类比能带我们走多远?

想到这里,我发现这个隐喻比我最初以为的要深。

LLM 的「知识」本质是概率压缩

人类的知识以什么形式存在?书籍、论文、代码、对话、网页、法律文本……所有这些,归根结底是文本序列。

LLM 做的事情,是把这些海量的文本序列压缩成一组概率分布。

给定任意前文,它能给出一个合理的续写。这意味着:人类用几千年积累的知识,被压缩进了一个模型的参数空间里。

这不就是「无限猴子」的逆过程吗?

  • 正向:无限猴子 → 随机产出 → 偶然命中有序内容
  • 逆向:收集所有有序内容 → 学习其模式 → 产出几乎不随机的有序输出

LLM 走的是逆向路径。它不是靠运气,而是靠把运气变成了知识。

它依然是「猴子」——这不是贬义

很多人争论 LLM 到底是不是「真正的智能」。

如果你从无限猴子的视角看,这个争论可以被重新框定:

猴子打出了莎士比亚全集——你说它「理解」了莎士比亚吗?

按照塔勒布的框架,当然不。那只是随机碰撞的结果。

但 LLM 不是完全随机的猴子,它是一只学过所有文本模式的猴子。它能在大多数情况下产出有意义的、连贯的、甚至有洞察力的内容。

所以真正的问题不是「它是不是智能」,而是:在「从随机到有序」的连续谱上,它走到了哪里?

纯随机猴子在最左端。一个真正理解宇宙的全知存在在最右端。LLM 在中间的某个位置——它不是随机的,但也不是全知的。它是一个前所未有的中间态:比任何猴子都有序,但比任何人类都缺乏真正的理解。

而这个中间态,已经够用了。

知识的「可达性」被彻底改变了

回到无限猴子定理的核心:理论上任何内容都可能被随机产出,但实际上需要的时间趋近于无穷。

「理论可行,实际不可能」——这就是纯随机的困境。

LLM 做到的事情是:把「理论可行」变成了「实际可用」。

你想要一篇关于量子纠缠的通俗解释?随机猴子可能需要宇宙寿命的 \(10^{10000}\) 倍。LLM 需要 3 秒。

你想要一段用 Rust 写的 B+ 树实现?理论上打字机猴子终究会敲出来。LLM 需要 10 秒。

你想要一首以「孤独」为主题的七言律诗,同时暗合斐波那契数列的音节结构?猴子可能永远等不到宇宙热寂。LLM 可能会给你一个像模像样的版本——虽然可能有瑕疵。

这就是 LLM 真正的革命性:不是创造了新知识,而是让已有知识的获取成本趋近于零。

一个更深的问题:如果猴子够多,「创造」还有意义吗?

这是我最近一直在想的事。

无限猴子定理的一个推论是:在一个足够大的随机搜索空间中,所有可能的文本组合都已经「存在」了——只是大部分还没被找到。

博尔赫斯的「巴别图书馆」讲的就是这件事:一座包含所有可能书籍的图书馆,其中 99.9999...% 是垃圾,但那 0.0001% 中包含了一切有价值的内容——过去的、现在的、未来的。

LLM 就是巴别图书馆的搜索引擎。

它不是创造内容,而是在这个理论上已经包含了一切的空间中,快速定位到有意义的那一小片区域。

这引出一个令人不安的问题:

如果一切有意义的文本组合理论上早已「存在」于概率空间中,那么人类的「创造」到底是什么?

是我们发现了本来就在那里的东西?还是我们真的从虚无中创造了什么?

莎士比亚写下 "To be or not to be" 的时候,他是「创造」了这句话,还是「找到」了英语字母组合空间中的一个特定坐标?

我没有答案。

但我知道的是:LLM 让这个哲学问题变得不再只是哲学问题。当一台机器能在几秒钟内「找到」那些人类需要数十年灵感才能抵达的文本组合时,「创造」的定义本身就在被重写。

回到塔勒布:随机性、能力与我们的错觉

最后,让我们绕回塔勒布的本意。

他提醒我们警惕一种错觉:把随机的幸运成果当成系统性的能力。

这个警告对 LLM 同样适用:

  • LLM 有时候给出惊艳的回答,不代表它「理解」了问题
  • LLM 有时候犯低级错误,也不代表它「不智能」
  • 它的每一次输出,本质上都是一次有倾向性的随机采样

但塔勒布的框架需要一个更新:

在他的时代,随机性和能力是二元对立的——你要么靠实力,要么靠运气。

LLM 告诉我们,还有第三种可能:一种从海量随机中提炼出的、介于运气和实力之间的东西。它不是真正的理解,但远超随机碰撞。它不是智能,但能完成大量需要智能才能做到的事。

也许我们该给这种能力起个新名字。

也许它就叫:大语言模型。


无限猴子定理说,随机性理论上可以产出一切。LLM 证明了,当你用人类全部知识去塑造「随机性」的方向,理论就会变成现实。

我们没有等到无限只猴子。我们只是教会了一只猴子如何不再随机。

塔勒布大概不会同意这篇文章的一半论点。但如果有无限只 AI 写无限篇关于他的书的文章,总有一篇会让他满意的——对吧?