RLVR 真的让 LLM 学到新的推理能力了吗?

DeepSeek-R1 之后 RLVR(Reinforcement Learning with Verifiable Rewards)几乎成了"让小模型自己长出推理能力"的标准做法,pass@1 的曲线一路向上很容易让人觉得 RL 在不断给模型"教"新东西。清华 LeapLab 与上海交大的这篇 Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?(NeurIPS 2025 Oral,同时拿了 ICML 2025 AI4MATH workshop 最佳论文)想回答的直白问题是:RLVR 到底是在给 base model 添新推理能力,还是只是把它已有的推理路径采得更准了?

作者的核心论点:用足够大的 k(128 到 1024)去看 pass@k,RLVR 训练后的模型在小 k 上确实超过 base,但在大 k 上一致地被 base 反超;进一步的覆盖率和 perplexity 分析表明,RLVR 输出的推理路径全都已经在 base model 的采样分布里,RLVR 只是把分布尖锐化到已经能解的那部分题上,并没有引入 base 解不出的新题。蒸馏才能真正扩展模型能解的题集。

论文地址: arxiv.org/abs/2504.13837

为什么不用 best-of-N 或 majority voting?因为这两个方法是"挑出正确答案"的实用方案,会被 verifier 或投票漏掉一些其实模型生成出来过的正确解。pass@k 不关心能不能挑出来,只关心生成过没有,这才是能力上限。

数学题有个隐患:k 大了模型可能 CoT 错但答案蒙对。作者对 GSM8K 与 AIME24 上准确率低于 5% 的难题做了人工 CoT 检查(详见下文),结论是 base model 的 CoT 真实有效,不是猜中的。

大 k 上 base 反超 RLVR

实验覆盖 Qwen2.5-7B/14B/32B-Base、LLaMA-3.1-8B、Qwen2.5-Math-7B 等多个 base,搭配 SimpleRLZoo、Oat-Zero、DAPO、Code-R1、DeepCoder、EasyR1 等多种 RL 训练框架,benchmark 横跨数学(GSM8K、MATH500、Minerva、Olympiad、AIME24、AMC23)、代码(HumanEval+、MBPP+、LiveCodeBench)、视觉推理(MathVista、MathVision)。

所有曲线呈现同一形态:k 小时 RL 在上,k 增到几十至几百时 base 追上并反超。Minerva 32B 上,base 在 k=128 时比 RL 高约 9%;Oat-Zero 与 DAPO 这种在 AIME24 上 pass@1 比 base 高近 30% 的模型,到大 k 同样被 base 超过。代码任务上 pass@k 不存在"蒙对"问题,结论一致。视觉推理也一致。

Pass@k 曲线对比示意,以及 GRPO 训练步数越多 pass@256 越低

训练步数的实验更直接:GRPO 训得越久,训练集上 pass@1 从 26.1 一路涨到 42.5,pass@256 却同时下滑。RL 在抬高平均分的同时,能解的题集反而在持续收窄。

RLVR 解的题是 base 的子集

为什么会反超?作者把 AIME24 和 MATH500 上的题按 base/RL 各自能否解切成四类。AIME24(k=1024)上 base 能解 RL 不能解的题占 13.3%,反过来 RL 能解 base 不能解只有 0%,问题集合上 RL 几乎是 base 的真子集。MATH500(k=128)数字小一些但形态一致:base-only 3.6%、RL-only 1.0%,而且这极少数 RL-only 的题,base 在 k=1024 下全部都能采到。

光看准确率分布也能看出 RLVR 把什么搬到了哪里。Minerva 上准确率接近 1.0 的题增多,0.1、0.2 的中低区减少,这部分符合"把已经差不多能解的题彻底推到能解"的直觉。但准确率 0 的那一档也变多了。也就是说有一类原本 base 偶尔能蒙到的题,RLVR 训练后再也不会蒙到。这从频次分布上印证了 pass@k 覆盖率变窄的现象,不是采样运气问题。

Perplexity 上的同分布证据

要把"RLVR 没引入新路径"这一点说死,需要看路径本身在不在 base 的分布里。作者用 base 模型对三种来源的回答算 perplexity:base 自己生成的 $Y_{\text{Base}}$、RL 模型生成的 $Y_{\text{RL}}$、OpenAI-o1 生成的 $Y_{\text{GT}}$。

关键的观察是 $\text{PPL}_{\text{Base}}(Y_{\text{RL}})$ 的分布与 $\text{PPL}_{\text{Base}}(Y_{\text{Base}})$ 分布的下沿(即 base 本来就比较容易生成的那部分回答)几乎重合,并且明显低于 $\text{PPL}_{\text{Base}}(Y_{\text{GT}})$。换句话说,RL 模型给出的回答,恰好是 base 模型自己以较高概率会生成的那一批;而 o1 的回答 base 反而陌生。再追踪训练过程,$\text{PPL}_{\text{Base}}(Y_{\text{RL}})$ 随训练步数单调下降,意味着 RL 在持续把分布质量往 base 已有 prior 的高概率区集中。

人工 CoT 检查给出独立佐证。GSM8K 上对准确率不到 5% 的难题,base 答对 25 题中 24 题有至少一条正确 CoT,RL 答对 25 题中 23 题有至少一条正确 CoT,base 并非靠蒙。AIME24 上 base 在 2048 次采样里能给出长 CoT 加自我反思的正确推理,反思行为本就来自 base,不是 RL 教出来的。

不同 RL 算法之间的采样效率差距几乎一致

如果 RLVR 在不同算法之间有量级差异,可能说明"能力没扩展"只是某些算法的问题。作者用 VeRL 框架公平地复现了 PPO、GRPO、Reinforce++、RLOO、ReMax、DAPO 六种算法,在 Omni-MATH-Rule 上分训练/in-domain/out-of-domain 三个划分上跑。

为了量化"离上限多远",作者定义了一个叫 sampling efficiency gap(采样效率差距,简称 SE)的指标:$\text{SE} = \text{base 的 pass@256} - \text{RL 的 pass@1}$,把 base 在 k=256 下的覆盖率当作可达上限,差距越小越好。六种算法在 in-domain 测试集上 SE 从 GRPO 的 43.9 到 RLOO 的 42.6,差异在 1 个多点的量级,相比"距上限 40+ 点"的总 gap 可以忽略。out-of-domain 上 SE 大约 20,绝对值更小但形态一致。论文给的结论是,RLVR 的瓶颈是范式级的,不是算法级的,靠换 loss 或换 baseline 解不掉。

KL 系数和 rollout 数 n 的消融也指向同一结论。加 KL 惩罚(系数 0.001)pass@1 持平但 pass@128 明显更低;把 rollout 数从 8 提到 32 能略改善 pass@k,但终究还是被 base 反超。把 RL 模型的采样温度调高、让它输出熵与 base 在 T=0.6 时相同,pass@k 比自身略好但仍不及 base,说明熵下降只是覆盖率变窄的一个分量,不是全部原因。

蒸馏能扩展能力上限,RL 不能

文章特意把蒸馏拉来对比。DeepSeek-R1-Distill-Qwen-7B 是把 R1 的长 CoT 数据蒸到 Qwen2.5-Math-7B 上得到的,对比对象是 base、Instruct、Oat-Zero RL 三个版本。蒸馏模型的 pass@k 曲线在整段 k 上都明显高于 base,包括大 k,而 RL 版本只是小 k 占优。也就是说蒸馏可以从更强的 teacher 把 base 里没有的推理模式塞进 student,真扩展了能解的题集;RL 不能。

结论在近前沿模型上仍成立

模型规模上结论是否还成立?作者用了一个近前沿的纯 RL 模型 Magistral-Medium(base 是 Mistral-Medium-3),在 AIME24 与 AIME25 上 k=1 时 RL 比 base 多解约 7~8 题,但随 k 增大优势持续收窄。结论在已知最强的开放 RL 模型上仍然成立。

为什么会卡在 base 的能力上限

作者把根因归到 RLVR 与传统 RL(AlphaGo、Atari)的两点结构性差异。第一,语言空间的 action 维度比围棋大几个数量级,从零开始几乎不可能探到带正向 reward 的路径。第二,正因如此 RLVR 必须从一个 pretrained base 起步,靠它的先验保证多数采样落在"合理回答"的区域里,否则 reward 信号全负,根本学不动。

先验是双刃剑。policy gradient 的目标是放大先验里能拿到正 reward 的样本、压低先验里拿负 reward 的样本,整个优化轨迹始终被先验框住。任何明显偏离先验的样本大概率得到负 reward,被进一步压低概率,结果就是训练好的 policy 只会在 base 已有的分布里再缩一缩。这就解释了 perplexity 实验里看到的"分布尖锐化但不外扩"。

作者认为出路在更高层抽象上的探索机制(如 AlphaEvolve 那种程序级演化)、对训练数据做课程式覆盖以确保 meta-skill 衔接、以及更细的 process reward 与 credit assignment。论文把 multi-turn agent RL 作为另一条值得探索的路径,理由是 IMO 级推理要的是基于反馈的反复修正,不是 single-turn 输出。这些都是开放方向,文章并不声称给出了答案。

实验设置与几点局限

实验默认温度 0.6、top-p 0.95,最大生成 16k token。base 模型评测时刻意不用 few-shot,与 RL 模型用同一份 zero-shot prompt,避免 in-context 例子额外注入推理能力。论文也提到 base 在 no-shot 下经常输出格式不规范的回答,但采样够多次能找到正确的格式化解。

数学任务用 zero-RL(无 SFT 直上 RL),代码与视觉推理则按社区惯例从 instruction-tuned 模型起步,以保证训练稳定。所有比较都拿"训练起点模型 vs RL 模型"对照,隔离 RLVR 自身的效果。

论文给出的两点局限:很多最强的 RL 模型和训练流程是闭源的,无法纳入对比;RL for LLM 演化很快,未来新的 RL 范式可能让本文结论失效。

小结

文章做的事可以拆成三步。一是诊断工具:从平均分换成大 k 下的 pass@k,把"模型到底能解多少题"变成可测量。二是现象:多 family、多算法、多任务、多 size 上一致观察到大 k 上 base 反超 RL,且 RL 解的题集合近乎 base 的子集。三是机制:perplexity 分析表明 RL 输出已经在 base 分布里,对照实验表明蒸馏能把能解的题集扩到 base 之外而 RL 不能,根因在于巨大 action space 加上 pretrained prior 的双刃剑作用。结论不是"RLVR 没用",而是"当前 RLVR 的作用是让 base 已有路径采得更准,要真正扩展模型能解的题集需要新的范式"。