ICML 2025 杰出论文：超越 Next Token Prediction 的创造力极限

发表于： 2026-05-15 分类于： NLP 阅读：≈ 9分钟浏览：评论：

ICML 2025 Outstanding Paper 一共评出 8 篇，Roll the Dice & Look Before You Leap: Going Beyond the Creative Limits of Next-Token Prediction 是其中之一，作者来自 CMU 与 Google Research。论文想回答为什么 LLM 在写谐音梗、出奥数题、想研究 idea 这类开放式任务上经常输出雷同的东西？

作者的核心论点：这类任务上人是先想到一个抽象点子再围绕它生成内容，next-token prediction（NTP）学不到这种模式。要改善，得先换掉训练目标让模型有能力学到这个隐藏点子，再把推理时的随机性从输出端挪到输入端，让这个点子在采样时不会被逐位置加噪拆碎。

论文地址： arxiv.org/abs/2504.15266

问题与任务设计

写个谐音梗，得先想到"哪两个词读音像但意思不搭"，再造句把它们串起来。出道奥数题，得先想到"用哪个不显眼的几何性质做关键 trick"，再把题面包装出来。提个研究 idea，得先在脑子里随机锁定一个有意思的切入点，再围绕它把动机和方法写出来。这类开放式任务有两个共同特征：一是没有唯一正确答案，好坏要看连贯、原创、多样三个维度；二是产出之前需要一个看不见的"赌一把"步骤：先随机选一个抽象目标或核心点子（leap of thought），再围绕它把内容生成出来。这个 leap 在最后的文本表面看不到，模型只能从大量样本里反推。

LLM 在这类任务上经常输出平庸雷同的东西。作者怀疑根因是 NTP 学不到这种"先想 leap、再围绕它生成"的模式：NTP 是从左到右逐 token 学条件分布，它有没有能力把"先内部采一个隐变量"这件事压缩进权重里，是个开放问题。

但在真实写作上验证这件事没法量化（什么算"有创意的奥数题"？连一致性都很难自动判断），所以作者退一步：保留"产出之前需要先想一个看不见的 leap"这个本质，把其它一切（语言、语义、连贯）剥光，剩下最朴素的算法骨架。这就是四个任务的设计动机。每个任务都人为塞进一个隐藏的 leap，并且生成结果的合法性、原创性、多样性都能精确判定。

认知科学里把创造力分成两类（Boden, 2003），论文每类各设两个任务：

组合式创造（在已知概念之间找新连接，对应类比、双关）：模型要先记住一些"概念间的关联"，再生成训练时没出现过的新合法组合。论文用 Sibling Discovery 和 Triangle Discovery 两个任务来代理。
探索式创造（在规则下构造新模式，对应出题、剧情设计）：没有现成的概念库，模型要按某种约束从零构造一个合法的结构。论文用 Circle Construction 和 Line Construction 两个任务来代理。

每类各两个任务是为了覆盖难度梯度。还有个更深的设计考虑：后三个任务的输出对 token 排列不敏感（permutation-invariant），下一节会看到这一点为什么对 NTP 是致命的。

评测指标 algorithmic creativity：从模型采样一组生成，统计其中"满足任务约束 + 训练集中没出现过 + 彼此不重复"的占比，三者缺一不可。只满足约束容易（直接背训练集就行），同时还要原创且多样才说明模型真学到了背后的生成规则。

四个最小任务

四个任务的共同套路：先在训练阶段让模型把一张图的结构记到权重里（in-weights graph），再要求模型生成符合某种关系的元组。“创造"指的是输出训练时没见过、但仍然合法的新组合。

Sibling Discovery。模型权重里记一张二部图（一组 parent，每个 parent 下挂若干 child）。训练样本是 (child A, child B, parent)，比如 (狗, 猫, 哺乳动物)。任务：生成一个新的合法三元组。隐藏的 leap 是 parent，但训练数据故意把 parent 放最后，逼着 NTP 必须先吐出两个 child 再补 parent，跟"先想主题再举例"刚好相反。

Triangle Discovery。比 Sibling 难一档：图换成普通图（不再是二部图），样本是图里的一个三角形 $(v_1, v_2, v_3)$。三个顶点互为约束，没有"主隐变量”，模型必须同时协调三条边都存在。

Circle Construction。给 $n$ 个匿名顶点，要求模型输出一组边，能重排成一个 $n$ 顶点的环。比如 8 个顶点输出 (3,5),(5,2),(2,7),(7,1),(1,6),(6,4),(4,8),(8,3)，重排就是环 3-5-2-7-1-6-4-8-3。隐藏的 leap 是模型脑子里要先有一张"环长什么样"的草图，否则边只能一条一条凑，凑到后面容易破坏环结构。

Line Construction。Circle 简化版，目标是链而非环。

后三个任务的 permutation-invariant 性质回到了上节说的痛点：根本就没有哪个 token 在天然意义上"应该先出现"，没办法通过"重排训练数据让 leap 先出现"这种小技巧来照顾 NTP。Sibling 还能争论"把 parent 放前面就行了"，这三个任务连这条出路都堵死。

NTP 为什么会失败

以 Sibling 为例。理想生成方式是先采隐变量 $z := \gamma$（parent），再由 $p(\alpha, \beta | z)$ 同时出两个 child，所需训练样本约 $O(m \cdot n)$（$m$ 个 parent，每个挂 $n$ 个 child）。

但 NTP 按数据顺序逐 token 学，第一个 token $\alpha$ 没上下文只能学边缘分布；第二个 token $\beta$ 在 $\alpha$ 条件下有两种学法：

正路：在内部表示出 $\alpha$ 属于哪个 parent，再从 parent 的孩子集合里挑 $\beta$
捷径：跳过 parent 这一层，直接学"看到 $\alpha$ 就找一个常和它共现的 token 作 $\beta$"

捷径更简单，神经网络的 simplicity bias 会优先抓住它。论文叫这个现象 Clever Hans cheat，名字典故是那匹"会算术"的马 Clever Hans，其实只是在读训练员的微表情找答案，根本没学算术。

一旦走了捷径，第三个位置的 parent 就废了：模型不靠 parent 也能预测对，学 parent 的梯度信号几乎没有。结果是模型只学到表面共现规则，没学到 latent plan（即 leap），数据效率从 $O(m \cdot n)$ 退化到 $O(m \cdot n^2)$。

更关键的是，Triangle/Circle/Line 这三个 permutation-invariant 任务上没有任何 token 重排能救 NTP。“把 leap 放前面"这种在 Sibling 上勉强成立的辩护，到这里彻底失效。

训练阶段：换掉 NTP，让模型学到 latent plan

NTP 失败的根因是"逐 token 学，前面走捷径毁了后面”。解法的方向就是让模型一次性预测整段输出，而不是一个接一个地条件生成。前面位置不再有"已经写定的真值"可以拿来偷懒，模型必须在 prompt 编码阶段就把 plan 想好。论文比较两种做法。

teacherless training。常规 NTP 训练靠 teacher forcing：训第 5 个 token 时，前 4 个位置喂的是 ground-truth 真值，模型只负责"在已知前缀下猜下一个"。teacherless 把这个拐杖抽掉，前 4 个位置喂 dummy mask，模型必须靠 prompt 一次性把所有 token 都预测对。这逼着模型在 prompt 编码阶段就把整段输出"想清楚"。

Diffusion（论文用 SEDD，Score Entropy Discrete Diffusion）。训练时把目标序列随机损坏到不同程度（轻则替换几个 token，重则全部 mask 掉），让模型从损坏版本恢复原序列。推理时从全 mask 出发，反复修。teacherless 是 diffusion 的极端特例（只在"全 mask"那一种损坏程度下训），diffusion 多了不同强度的中间状态，相当于一组难度递进的子任务，梯度信号更平滑，所以在小模型上比 teacherless 稳。

两者共同的 insight：把"逐 token 条件预测"换成"整段联合预测"，强迫 latent plan 被显式学到。

实验上有两条值得抽出的洞察。一是 memorization 与 creativity 是对偶的：Gemma v1 2B 上 teacherless 把 algorithmic creativity 拉高的同时，memorization 大幅下降。这反过来印证了机制，NTP 学不到 plan 时只能靠记样本来拟合训练数据，多 token 训练强迫学全局模式，自然少了记忆痕迹。二是 scale 决定哪种方法占优：Gemma 2B 上 teacherless 表现最好，到 GPT-2 86M 这种小模型上 teacherless 反而难优化，diffusion 更稳。原因是 teacherless 目标分布方差比 NTP 高得多，小模型容量不够时优化卡住。

真实数据上的迁移目前还很弱。XSUM 摘要任务上 teacherless 在 self-BLEU 多样性指标上有小幅但稳定的提升，CNN/DailyMail 上看不到。算法任务上的强信号还没法在真实文本生成上复现，论文本身也指出了这一点。

推理阶段：把随机性从输出端搬到输入端

训练阶段换了目标之后，模型有能力把 latent plan 学进权重里，但推理时还有第二步问题：怎么让这个 plan 在采样时真正被"采"出来？这一节接着上一节讲，不是另起炉灶。

常规做法 temperature sampling 是在每个 token 位置上提高输出分布的熵，让模型有机会偏离最大概率选项。问题是这种随机性是分散在每一步的：模型没法在第一步就锁定"我这次要走哪条 plan"，只能边解码边在每个位置赌一次小骰子，多个位置上的随机决定互相不协调。对"先想 leap、再围绕它生成"的任务，这种逐位置加噪很容易把 plan 拆碎，输出要么模式坍缩，要么前后不一致。

seed-conditioning 把随机性挪到输入端：训练时给每个样本拼一段无意义的随机字符串作为 seed，推理时换一个新 seed 用 greedy decoding（不加任何输出噪声，每一步取最大概率 token）解码。一次抛骰子定终身。

核心 insight 是把多样性和确定性解耦：seed 决定要走哪条 plan，decoding 本身完全确定。这绕开了 temperature sampling 的根本困难，后者要求模型在每一步都同时维护多条 plan 的边缘分布，相当于让模型"同时想多件事"。

论文坦承机制层不完全理解（“We do not understand this presently”），但实验上 seed-conditioning 配 greedy 在 Gemma 2B 上能与 temperature sampling 平手或更好。这一步配上前面的训练目标改造，整条路径才完整：训练阶段让模型学到 plan，采样阶段让 plan 不被噪声拆碎。

一些开放问题

真实数据上的迁移最关键。算法任务上的所有 insight 目前只在 XSUM 上看到微弱信号，CNN/DailyMail 都没复现。如果 effect size 一直这么小，方法在真实文本生成上的实用空间还需要更多证据来支撑。

与 reasoning 类方法的关系是论文留下最有意思的开放问题。作者明确把 scope 限定在 supervised setting，不评判 RL、CoT、test-time compute。但他们顺带提了一个值得追的逻辑：如果 post-training 只是 elicit base model 已有能力，那 base model 的 creativity 上限就是整个 pipeline 的上限，堆再多 reasoning trick 也救不回来。这一点留给了后续工作。

小结

论文做了两件事。一是问题诊断：用四个最小算法任务把"开放式生成需要先采隐变量"剥成可量化的 algorithmic creativity 指标，给出 NTP 的可控反例，机制是 simplicity bias 让模型走 Clever Hans 捷径跳过 latent plan。二是两步走的解法：先用 teacherless/diffusion 改训练目标，让模型有能力学到 plan；再用 seed-conditioning 改采样机制，让 plan 在解码时不被逐位置加噪拆碎。两步衔接在一起才是完整路径，单独哪一步都不够。