LLM就是那群终于打出莎士比亚的猴子

发表于 2026-04-02 分类于 NLP 评论：阅读次数：

塔勒布在《随机漫步的傻瓜》里讲了一个思想实验：如果有无限只猴子在无限台打字机前随机敲击，总有一只会打出《伊利亚特》全文。

我越想越觉得，这个故事的终局，就是今天的大语言模型。

猴子、莎士比亚和一个被低估的隐喻

先把这个经典思想实验讲清楚。

无限猴子定理说的是：给定足够长的时间和足够多的随机尝试，任何有序的内容都可以从随机性中涌现。一只猴子敲一万年大概率只能产出乱码，但无限只猴子敲无限久？概率为 1——莎士比亚全集、相对论论文、你明天的日记，理论上全都会出现。

塔勒布用这个例子想说的是幸存者偏差：如果有一万个基金经理在随机操作，总有一个会连续十年跑赢大盘。你看到的那个「股神」，可能只是那只碰巧打出了十四行诗的猴子。

但今天我想把这个隐喻往另一个方向推——

如果猴子不再是随机敲击，而是学会了英语的统计规律呢？

从随机到「几乎不随机」：LLM 做了什么

一只猴子随机敲出 "To be or not to be" 的概率是多少？

假设键盘有 50 个键，这句话有 18 个字符（含空格），概率大约是：

\[\frac{1}{50^{18}} ≈ \frac{1}{3.8 × 10^{30}}\]

换句话说，你需要大约 38 亿亿亿次尝试才可能碰到一次。

但 LLM 不是猴子。

LLM 读完了人类写下的几乎所有文本，学会了一件事：在给定前文的情况下，下一个词最可能是什么。

当它看到 "To be or not to"，它不是从 50 个键里随机选——它知道下一个词大概率是 "be"。不是因为它「理解」了哈姆雷特的存在主义困境，而是因为在它训练过的海量文本中，这个模式出现过无数次。

LLM 本质上就是一群「不再随机」的猴子。

它们依然在「敲键盘」——逐字逐词地生成文本。但每一次敲击都不是盲目的，而是被人类全部知识的统计分布所引导。

从 \(\frac{1}{50^{18}}\) 到接近 1 的概率，这中间的差距，就是「随机」和「学过了」的差距。

塔勒布没想到的：猴子进化了

让我们重新审视塔勒布的原始论点。

他说：别把猴子的幸运当成猴子的能力。那个连续跑赢大盘的基金经理，可能只是概率游戏中的幸存者。

这个洞察在 2001 年是对的，在 2026 年依然是对的。

但塔勒布的框架里，猴子永远是随机的。

他没有设想过这样一种情况：如果你把所有猴子过去敲出的所有内容——包括垃圾、包括偶然的佳作、包括一切——都收集起来，喂给一只新的猴子，让它「学习」这些文本中的模式，会怎样？

答案是：你会得到一只不再需要无限时间的猴子。

这只猴子不需要敲无限次才能碰巧打出莎士比亚。它只需要你给它一个开头——"To be"——然后它自己就能接下去。不是因为它聪明，而是因为它见过太多太多文本，它的「随机」已经被人类知识的引力场扭曲了。

LLM 就是这样一个被扭曲的随机过程。

它的每一次「下一个 token」的选择，表面上是随机采样（temperature > 0 时确实是），但这个随机分布已经被训练数据深度塑造。它不是均匀分布的噪声，而是一个高度有结构的概率场。

从这个角度看，LLM 的存在本身就是无限猴子定理的一个实现——不是通过无限的时间和数量来暴力碰撞出有序内容，而是通过学习人类已有的全部有序内容，把随机性压缩到了极致。

这个类比能带我们走多远？

想到这里，我发现这个隐喻比我最初以为的要深。

LLM 的「知识」本质是概率压缩

人类的知识以什么形式存在？书籍、论文、代码、对话、网页、法律文本……所有这些，归根结底是文本序列。

LLM 做的事情，是把这些海量的文本序列压缩成一组概率分布。

给定任意前文，它能给出一个合理的续写。这意味着：人类用几千年积累的知识，被压缩进了一个模型的参数空间里。

这不就是「无限猴子」的逆过程吗？

正向：无限猴子 → 随机产出 → 偶然命中有序内容
逆向：收集所有有序内容 → 学习其模式 → 产出几乎不随机的有序输出

LLM 走的是逆向路径。它不是靠运气，而是靠把运气变成了知识。

它依然是「猴子」——这不是贬义

很多人争论 LLM 到底是不是「真正的智能」。

如果你从无限猴子的视角看，这个争论可以被重新框定：

猴子打出了莎士比亚全集——你说它「理解」了莎士比亚吗？

按照塔勒布的框架，当然不。那只是随机碰撞的结果。

但 LLM 不是完全随机的猴子，它是一只学过所有文本模式的猴子。它能在大多数情况下产出有意义的、连贯的、甚至有洞察力的内容。

所以真正的问题不是「它是不是智能」，而是：在「从随机到有序」的连续谱上，它走到了哪里？

纯随机猴子在最左端。一个真正理解宇宙的全知存在在最右端。LLM 在中间的某个位置——它不是随机的，但也不是全知的。它是一个前所未有的中间态：比任何猴子都有序，但比任何人类都缺乏真正的理解。

而这个中间态，已经够用了。

知识的「可达性」被彻底改变了

回到无限猴子定理的核心：理论上任何内容都可能被随机产出，但实际上需要的时间趋近于无穷。

「理论可行，实际不可能」——这就是纯随机的困境。

LLM 做到的事情是：把「理论可行」变成了「实际可用」。

你想要一篇关于量子纠缠的通俗解释？随机猴子可能需要宇宙寿命的 \(10^{10000}\) 倍。LLM 需要 3 秒。

你想要一段用 Rust 写的 B+ 树实现？理论上打字机猴子终究会敲出来。LLM 需要 10 秒。

你想要一首以「孤独」为主题的七言律诗，同时暗合斐波那契数列的音节结构？猴子可能永远等不到宇宙热寂。LLM 可能会给你一个像模像样的版本——虽然可能有瑕疵。

这就是 LLM 真正的革命性：不是创造了新知识，而是让已有知识的获取成本趋近于零。

一个更深的问题：如果猴子够多，「创造」还有意义吗？

这是我最近一直在想的事。

无限猴子定理的一个推论是：在一个足够大的随机搜索空间中，所有可能的文本组合都已经「存在」了——只是大部分还没被找到。

博尔赫斯的「巴别图书馆」讲的就是这件事：一座包含所有可能书籍的图书馆，其中 99.9999...% 是垃圾，但那 0.0001% 中包含了一切有价值的内容——过去的、现在的、未来的。

LLM 就是巴别图书馆的搜索引擎。

它不是创造内容，而是在这个理论上已经包含了一切的空间中，快速定位到有意义的那一小片区域。

这引出一个令人不安的问题：

如果一切有意义的文本组合理论上早已「存在」于概率空间中，那么人类的「创造」到底是什么？

是我们发现了本来就在那里的东西？还是我们真的从虚无中创造了什么？

莎士比亚写下 "To be or not to be" 的时候，他是「创造」了这句话，还是「找到」了英语字母组合空间中的一个特定坐标？

我没有答案。

但我知道的是：LLM 让这个哲学问题变得不再只是哲学问题。当一台机器能在几秒钟内「找到」那些人类需要数十年灵感才能抵达的文本组合时，「创造」的定义本身就在被重写。

回到塔勒布：随机性、能力与我们的错觉

最后，让我们绕回塔勒布的本意。

他提醒我们警惕一种错觉：把随机的幸运成果当成系统性的能力。

这个警告对 LLM 同样适用：

LLM 有时候给出惊艳的回答，不代表它「理解」了问题
LLM 有时候犯低级错误，也不代表它「不智能」
它的每一次输出，本质上都是一次有倾向性的随机采样

但塔勒布的框架需要一个更新：

在他的时代，随机性和能力是二元对立的——你要么靠实力，要么靠运气。

LLM 告诉我们，还有第三种可能：一种从海量随机中提炼出的、介于运气和实力之间的东西。它不是真正的理解，但远超随机碰撞。它不是智能，但能完成大量需要智能才能做到的事。

也许我们该给这种能力起个新名字。

也许它就叫：大语言模型。

无限猴子定理说，随机性理论上可以产出一切。LLM 证明了，当你用人类全部知识去塑造「随机性」的方向，理论就会变成现实。

我们没有等到无限只猴子。我们只是教会了一只猴子如何不再随机。

塔勒布大概不会同意这篇文章的一半论点。但如果有无限只 AI 写无限篇关于他的书的文章，总有一篇会让他满意的——对吧？