ICML 2025 杰出论文:超越 Next Token Prediction 的创造力极限

ICML 2025 Outstanding Paper 一共评出 8 篇,Roll the Dice & Look Before You Leap: Going Beyond the Creative Limits of Next-Token Prediction 是其中之一,作者来自 CMU 与 Google Research。论文想回答为什么 LLM 在写谐音梗、出奥数题、想研究 idea 这类开放式任务上经常输出雷同的东西?

作者的核心论点:这类任务上人是先想到一个抽象点子再围绕它生成内容,next-token prediction(NTP)学不到这种模式。要改善,得先换掉训练目标让模型有能力学到这个隐藏点子,再把推理时的随机性从输出端挪到输入端,让这个点子在采样时不会被逐位置加噪拆碎。

论文地址: arxiv.org/abs/2504.15266

问题与任务设计

写个谐音梗,得先想到"哪两个词读音像但意思不搭",再造句把它们串起来。出道奥数题,得先想到"用哪个不显眼的几何性质做关键 trick",再把题面包装出来。提个研究 idea,得先在脑子里随机锁定一个有意思的切入点,再围绕它把动机和方法写出来。这类开放式任务有两个共同特征:一是没有唯一正确答案,好坏要看连贯、原创、多样三个维度;二是产出之前需要一个看不见的"赌一把"步骤:先随机选一个抽象目标或核心点子(leap of thought),再围绕它把内容生成出来。这个 leap 在最后的文本表面看不到,模型只能从大量样本里反推。

LLM 在这类任务上经常输出平庸雷同的东西。作者怀疑根因是 NTP 学不到这种"先想 leap、再围绕它生成"的模式:NTP 是从左到右逐 token 学条件分布,它有没有能力把"先内部采一个隐变量"这件事压缩进权重里,是个开放问题。

但在真实写作上验证这件事没法量化(什么算"有创意的奥数题"?连一致性都很难自动判断),所以作者退一步:保留"产出之前需要先想一个看不见的 leap"这个本质,把其它一切(语言、语义、连贯)剥光,剩下最朴素的算法骨架。这就是四个任务的设计动机。每个任务都人为塞进一个隐藏的 leap,并且生成结果的合法性、原创性、多样性都能精确判定。

任务沿认知科学(Boden, 2003)对创造力的两类划分各设两个:

  • 组合式创造(在已知概念之间找新连接,对应类比、双关):模型要先记住一些"概念间的关联",再生成训练时没出现过的新合法组合。论文用 Sibling Discovery 和 Triangle Discovery 两个任务来代理。
  • 探索式创造(在规则下构造新模式,对应出题、剧情设计):没有现成的概念库,模型要按某种约束从零构造一个合法的结构。论文用 Circle Construction 和 Line Construction 两个任务来代理。

每类各两个任务是为了覆盖难度梯度。还有个更深的设计考虑:后三个任务的输出对 token 排列不敏感(permutation-invariant),下一节会看到这一点为什么对 NTP 是致命的。

评测指标 algorithmic creativity:从模型采样一组生成,统计其中"满足任务约束 + 训练集中没出现过 + 彼此不重复"的占比,三者缺一不可。只满足约束容易(直接背训练集就行),同时还要原创且多样才说明模型真学到了背后的生成规则。

四个最小任务

四个任务的共同套路:先在训练阶段让模型把一张图的结构记到权重里(in-weights graph),再要求模型生成符合某种关系的元组。“创造"指的是输出训练时没见过、但仍然合法的新组合。

Sibling Discovery。模型权重里记一张二部图(一组 parent,每个 parent 下挂若干 child)。训练样本是 (child A, child B, parent),比如 (狗, 猫, 哺乳动物)。任务:生成一个新的合法三元组。隐藏的 leap 是 parent,但训练数据故意把 parent 放最后,逼着 NTP 必须先吐出两个 child 再补 parent,跟"先想主题再举例"刚好相反。

Triangle Discovery。比 Sibling 难一档:图换成普通图(不再是二部图),样本是图里的一个三角形 $(v_1, v_2, v_3)$。三个顶点互为约束,没有"主隐变量”,模型必须同时协调三条边都存在。

Sibling Discovery 与 Triangle Discovery

Circle Construction。给 $n$ 个匿名顶点,要求模型输出一组边,能重排成一个 $n$ 顶点的环。比如 8 个顶点输出 (3,5),(5,2),(2,7),(7,1),(1,6),(6,4),(4,8),(8,3),重排就是环 3-5-2-7-1-6-4-8-3。隐藏的 leap 是模型脑子里要先有一张"环长什么样"的草图,否则边只能一条一条凑,凑到后面容易破坏环结构。

Line Construction。Circle 简化版,目标是链而非环。

Circle Construction 与 Line Construction

后三个任务的 permutation-invariant 性质回到了上节说的痛点:根本就没有哪个 token 在天然意义上"应该先出现",没办法通过"重排训练数据让 leap 先出现"这种小技巧来照顾 NTP。Sibling 还能争论"把 parent 放前面就行了",这三个任务连这条出路都堵死。

NTP 为什么会失败

以 Sibling 为例。理想生成方式是先采隐变量 $z := \gamma$(parent),再由 $p(\alpha, \beta | z)$ 同时出两个 child,所需训练样本约 $O(m \cdot n)$($m$ 个 parent,每个挂 $n$ 个 child)。

但 NTP 按数据顺序逐 token 学,第一个 token $\alpha$ 没上下文只能学边缘分布;第二个 token $\beta$ 在 $\alpha$ 条件下有两种学法:

  • 正路:在内部表示出 $\alpha$ 属于哪个 parent,再从 parent 的孩子集合里挑 $\beta$
  • 捷径:跳过 parent 这一层,直接学"看到 $\alpha$ 就找一个常和它共现的 token 作 $\beta$"

捷径更简单,神经网络的 simplicity bias 会优先抓住它。论文叫这个现象 Clever Hans cheat,名字典故是那匹"会算术"的马 Clever Hans,其实只是在读训练员的微表情找答案,根本没学算术。

一旦走了捷径,第三个位置的 parent 就废了:模型不靠 parent 也能预测对,学 parent 的梯度信号几乎没有。结果是模型只学到表面共现规则,没学到 latent plan(即 leap),数据效率从 $O(m \cdot n)$ 退化到 $O(m \cdot n^2)$。

更关键的是,Triangle/Circle/Line 这三个 permutation-invariant 任务上没有任何 token 重排能救 NTP。“把 leap 放前面"这种在 Sibling 上勉强成立的辩护,到这里彻底失效。

训练阶段:换掉 NTP,让模型学到 latent plan

NTP 失败的根因是"逐 token 学,前面走捷径毁了后面”。解法的方向就是让模型一次性预测整段输出,而不是一个接一个地条件生成。前面位置不再有"已经写定的真值"可以拿来偷懒,模型必须在 prompt 编码阶段就把 plan 想好。论文比较两种做法。

teacherless training。常规 NTP 训练靠 teacher forcing:训第 5 个 token 时,前 4 个位置喂的是 ground-truth 真值,模型只负责"在已知前缀下猜下一个"。teacherless 把这个拐杖抽掉,前 4 个位置喂 dummy mask,模型必须靠 prompt 一次性把所有 token 都预测对。这逼着模型在 prompt 编码阶段就把整段输出"想清楚"。

Diffusion(论文用 SEDD,Score Entropy Discrete Diffusion)。训练时把目标序列随机损坏到不同程度(轻则替换几个 token,重则全部 mask 掉),让模型从损坏版本恢复原序列。推理时从全 mask 出发,反复修。teacherless 是 diffusion 的极端特例(只在"全 mask"那一种损坏程度下训),diffusion 多了不同强度的中间状态,相当于一组难度递进的子任务,梯度信号更平滑,所以在小模型上比 teacherless 稳。

两者共同的 insight:把"逐 token 条件预测"换成"整段联合预测",强迫 latent plan 被显式学到。

实验上有两条值得抽出的洞察。一是 memorization 与 creativity 是对偶的:Gemma v1 2B 上 teacherless 把 algorithmic creativity 拉高的同时,memorization 大幅下降。这反过来印证了机制,NTP 学不到 plan 时只能靠记样本来拟合训练数据,多 token 训练强迫学全局模式,自然少了记忆痕迹。二是 scale 决定哪种方法占优:Gemma 2B 上 teacherless 表现最好,到 GPT-2 86M 这种小模型上 teacherless 反而难优化,diffusion 更稳。原因是 teacherless 目标分布方差比 NTP 高得多,小模型容量不够时优化卡住。

Gemma v1 2B 上 teacherless 把 creativity 拉高、把 memorization 压低

真实数据上的迁移目前还很弱。XSUM 摘要任务上 teacherless 在 self-BLEU 多样性指标上有小幅但稳定的提升,CNN/DailyMail 上看不到。算法任务上的强信号还没法在真实文本生成上复现,论文本身也指出了这一点。

推理阶段:把随机性从输出端搬到输入端

训练阶段换了目标之后,模型有能力把 latent plan 学进权重里,但推理时还有第二步问题:怎么让这个 plan 在采样时真正被"采"出来?这一节接着上一节讲,不是另起炉灶。

常规做法 temperature sampling 是在每个 token 位置上提高输出分布的熵,让模型有机会偏离最大概率选项。问题是这种随机性是分散在每一步的:模型没法在第一步就锁定"我这次要走哪条 plan",只能边解码边在每个位置赌一次小骰子,多个位置上的随机决定互相不协调。对"先想 leap、再围绕它生成"的任务,这种逐位置加噪很容易把 plan 拆碎,输出要么模式坍缩,要么前后不一致。

seed-conditioning 把随机性挪到输入端:训练时给每个样本拼一段无意义的随机字符串作为 seed,推理时换一个新 seed 用 greedy decoding(不加任何输出噪声,每一步取最大概率 token)解码。一次抛骰子定终身。

核心 insight 是把多样性和确定性解耦:seed 决定要走哪条 plan,decoding 本身完全确定。这绕开了 temperature sampling 的根本困难,后者要求模型在每一步都同时维护多条 plan 的边缘分布,相当于让模型"同时想多件事"。

论文坦承机制层不完全理解(“We do not understand this presently”),但实验上 seed-conditioning 配 greedy 在 Gemma 2B 上能与 temperature sampling 平手或更好。这一步配上前面的训练目标改造,整条路径才完整:训练阶段让模型学到 plan,采样阶段让 plan 不被噪声拆碎。

一些开放问题

真实数据上的迁移最关键。算法任务上的所有 insight 目前只在 XSUM 上看到微弱信号,CNN/DailyMail 都没复现。如果 effect size 一直这么小,方法在真实文本生成上的实用空间还需要更多证据来支撑。

与 reasoning 类方法的关系是论文留下最有意思的开放问题。作者明确把 scope 限定在 supervised setting,不评判 RL、CoT、test-time compute。但他们顺带提了一个值得追的逻辑:如果 post-training 只是 elicit base model 已有能力,那 base model 的 creativity 上限就是整个 pipeline 的上限,堆再多 reasoning trick 也救不回来。这一点留给了后续工作。

小结

论文做了两件事。一是问题诊断:用四个最小算法任务把"开放式生成需要先采隐变量"剥成可量化的 algorithmic creativity 指标,给出 NTP 的可控反例,机制是 simplicity bias 让模型走 Clever Hans 捷径跳过 latent plan。二是两步走的解法:先用 teacherless/diffusion 改训练目标,让模型有能力学到 plan;再用 seed-conditioning 改采样机制,让 plan 在解码时不被逐位置加噪拆碎。两步衔接在一起才是完整路径,单独哪一步都不够。