RLVR 真的让 LLM 学到新的推理能力了吗?
DeepSeek-R1 之后 RLVR(Reinforcement Learning with Verifiable Rewards)几乎成了"让小模型自己长出推理能力"的标准做法,pass@1 的曲线一路向上很容易让人觉得 RL 在不断给模型"教"新东西。清华 LeapLab 与上海交大的这篇 Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?(NeurIPS 2025 Oral,同时拿了 ICML 2025 AI4MATH workshop 最佳论文)想回答的直白问题是:RLVR 到底是在给 base model 添新推理能力,还是只是把它已有的推理路径采得更准了?
作者的核心论点:用足够大的 k(128 到 1024)去看 pass@k,RLVR 训练后的模型在小 k 上确实超过 base,但在大 k 上一致地被 base 反超;进一步的覆盖率和 perplexity 分析表明,RLVR 输出的推理路径全都已经在 base model 的采样分布里,RLVR 只是把分布尖锐化到已经能解的那部分题上,并没有引入 base 解不出的新题。蒸馏才能真正扩展模型能解的题集。