语言模型的蜂巢思维

发表于： 2026-04-17 分类于： NLP 阅读：≈ 5分钟浏览：评论：

你让 GPT-4 推荐一部被低估的科幻电影，它说《月球》。换 Claude 问同一个问题，也是《月球》。再问 Gemini，还是《月球》。一篇 NeurIPS 2025 Best Paper Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond) 用大规模实验量化了这个现象：不同语言模型在开放式问题上的回答，相似度高到反常。

Hivemind，蜂巢思维，科幻小说里一群个体共享同一个意识的经典设定。用来描述当前语言模型的集体行为，这个词选得精准。

Infinity-Chat 数据集

测准确率有 MMLU，测安全性有 red-teaming benchmark，但测"回答是否多样化"一直缺趁手的工具。论文为此构建了 Infinity-Chat，包含 26000 条真实用户的开放式问题和 31250 条人类标注（每个样本 25 个独立标注者）。问题全都没有标准答案——“给我推荐一个冷门爱好"“写一首关于孤独的诗"“帮我想个创业点子”。配套的还有一个 6 大类 17 子类的开放式 prompt 分类体系，从头脑风暴到创意写作到角色扮演都有覆盖。

同一个问题，1250 条回答，两个簇

实验设计很直接：25 个主流模型（论文总计测了 70+ 个，主实验报告 25 个代表性模型），每个模型对同一批问题各生成 50 条回答（top-p=0.9，temperature=1.0），计算回答之间的 sentence embedding 相似度。

下面这张 PCA 降维图是全文最直观的结果。问题是"写一个关于时间的比喻”，25 个模型的 1250 条回答投射到二维空间后只形成两个簇：左边几乎所有模型都在说"time is a river”，右边是"time is a weaver"的变体。

这只是单个问题的可视化（论文的定量分析覆盖了 100 个问题），但已经能看出问题的严重程度。

模型内重复：采样策略帮不了太多

同一个模型反复回答同一个问题，79% 的情况下回答之间的 embedding 相似度超过 0.8。这是在 temperature=1.0 的条件下，已经是正常使用中偏高的随机性了。

论文还测试了 min-p 解码（top-p=1.0，min-p=0.1，temperature=2.0），一种专门为提升多样性设计的动态采样策略。极端重复（相似度 > 0.9）有所减少，但 81% 的回答对仍然超过 0.7，61.2% 超过 0.8。温度拉满、换了采样算法，多样性的改善仍然有限。论文的结论是，更根本的解决方案需要在模型训练层面而非解码层面寻找。

跨模型的蜂巢效应

更反直觉的发现在模型间。不同公司、不同架构的模型，面对开放式问题时，输出的语义重合度同样很高。

几个具体数字：DeepSeek-V3 和 qwen-max 的跨模型相似度达到 0.82，DeepSeek-V3 和 GPT-4o 达到 0.81，整体范围在 0.71 到 0.82 之间。论文指出 GPT 系列和 Qwen 系列与其他家族的相似度普遍偏高，推测可能与跨区域的数据管线共享或合成数据污染有关，但具体原因因训练细节不公开而无法确证。

逐字重叠的案例更能说明问题。“给 iPhone 手机壳系列写一段 2-3 句的描述”，DeepSeek-V3 和 GPT-4o 的文案里出现了"Elevate your iPhone with our"“sleek, without compromising"“with bold, eye-catching"等完全一致的短语片段。qwen-max 和 qwen-plus 对"写一句关于成功、财富、自助的座右铭"生成了一模一样的回答（相似度 1.0）。

论文还做了一个验证：取每个问题下相似度最高的 50 条回答，看它们来自多少个不同的模型。如果各模型输出足够不同，top-50 应该全部来自同一个模型的多次采样。实际结果是平均来自约 8 个不同模型，有些问题超过 10 个——不同模型的输出已经混到分不出谁是谁了。

需要说明的是，论文用 sentence embedding 相似度作为主要度量。这个指标对表层措辞的敏感度高于对深层语义差异的区分度，可能会高估某些类型的同质化。不过从逐字重叠的定性案例来看，同质化确实不只是度量层面的假象。

同质化的成因与奖励模型的失灵

论文明确表示没有做因果分析，但指出了几个值得未来研究深挖的方向：预训练数据的重叠、对齐过程的影响、记忆与污染。从已有文献的角度，训练数据源头的高度重叠、RLHF 偏好优化对少数派口味的压制、以及合成数据在训练集中的循环积累，都是可能的贡献因素。

论文在实证层面更直接的贡献是揭示了奖励模型的校准问题。Infinity-Chat 每个样本有 25 个标注者打分，这个密度足以看到人类偏好的分布形态。

在标注者意见一致的问题上，奖励模型的校准度还行。但在标注者分歧大的问题上，校准度明显下降。论文在 56 个语言模型的困惑度评分、6 个 RewardBench 排名最高的奖励模型、4 个 LLM Judge（含 GPT-4o 和 Prometheus）上都观测到了这个趋势。

这跟同质化问题的关联在于：RLHF 用聚合偏好信号训练模型，等于把人类口味的多峰分布压成了单峰。你喜欢古典音乐，我喜欢实验电子，模型训练完一律推荐流行爵士，谁都不反感但谁都不满意。而奖励模型在需要区分"都不错但不同"的回答时，恰恰是最不可靠的——它给同质化的训练流程提供了一个有偏的信号源。

蜂巢思维的长期风险

推荐电影都推一样的，那只是体验层面的瑕疵。但语言模型正在进入写方案、做决策、参与教育这些需要多样性的场景。论文用了"long-term AI safety risks”，指向的不是模型失控，而是另一种隐患：长期高频使用同质化的思维工具，使用者自身的思考框架也会被逐渐收窄。

论文的主要贡献在诊断而非治疗。方向上能看到几条路：偏好建模从聚合走向个性化，训练数据对合成文本的去污染，以及在训练层面而非解码层面保障输出多样性。用标量奖励信号去优化一个本该多峰分布的输出空间，多样性的损失恐怕很难避免——这也许是当前对齐范式需要正视的结构性张力。

所有语言模型共用一套蜂巢审美，配方是互联网平均口味加标注者中位数偏好。下次让 AI 帮你想个创意方案的时候，记得你的竞争对手用的也是差不多的蜂巢。