0%

DeepSeek-R1 之后 RLVR(Reinforcement Learning with Verifiable Rewards)几乎成了"让小模型自己长出推理能力"的标准做法,pass@1 的曲线一路向上很容易让人觉得 RL 在不断给模型"教"新东西。清华 LeapLab 与上海交大的这篇 Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?(NeurIPS 2025 Oral,同时拿了 ICML 2025 AI4MATH workshop 最佳论文)想回答的直白问题是:RLVR 到底是在给 base model 添新推理能力,还是只是把它已有的推理路径采得更准了?

作者的核心论点:用足够大的 k(128 到 1024)去看 pass@k,RLVR 训练后的模型在小 k 上确实超过 base,但在大 k 上一致地被 base 反超;进一步的覆盖率和 perplexity 分析表明,RLVR 输出的推理路径全都已经在 base model 的采样分布里,RLVR 只是把分布尖锐化到已经能解的那部分题上,并没有引入 base 解不出的新题。蒸馏才能真正扩展模型能解的题集。

ANCE(Approximate Nearest Neighbor Negative Contrastive Learning for Dense Text Retrieval,2020,Microsoft,ICLR 2021)是一篇 2020 年的老文章,但 dense retrieval 训练里 hard negative mining 的标准做法基本是从这里定型的,DPR 系列、E5、BGE 都沿用了这套框架。其核心思路:在训练过程中持续维护一份 ANN 索引,从整个语料里挑当前模型最难区分的负样本去训 dense retriever,索引以异步方式定期刷新

论文有两层贡献。一是用 importance sampling 的方差分析指出,dense retrieval 训练时常用的 in-batch 与 BM25 负样本梯度范数接近零,是收敛瓶颈。二是给出全语料 ANN 难负样本采样的具体方案,并解决"索引必须随模型同步更新"这个工程瓶颈。在 TREC 2019 DL、MS MARCO、NQ、TQA 上,BERT-Siamese 配 ANCE 训练后,文档检索 NDCG@10 达 0.628(MaxP),passage MRR@10 达 0.330,Top-20 Coverage 在 NQ 和 TQA 上均超过 DPR,生产环境 8B 语料的离线检索质量相对提升约 14%~15%。

ICML 2025 Outstanding Paper 一共评出 8 篇,Roll the Dice & Look Before You Leap: Going Beyond the Creative Limits of Next-Token Prediction 是其中之一,作者来自 CMU 与 Google Research。论文想回答为什么 LLM 在写谐音梗、出奥数题、想研究 idea 这类开放式任务上经常输出雷同的东西?

作者的核心论点:这类任务上人是先想到一个抽象点子再围绕它生成内容,next-token prediction(NTP)学不到这种模式。要改善,得先换掉训练目标让模型有能力学到这个隐藏点子,再把推理时的随机性从输出端挪到输入端,让这个点子在采样时不会被逐位置加噪拆碎。

NV-Embed(NV-Embed: Improved Techniques for Training LLMs as Generalist Embedding Models,2024,NVIDIA,ICLR 2025)的核心思路:从 Mistral 7B 直接训起,移除 causal attention mask,在最后一层 hidden state 后接一个 latent attention 层做池化,再用两阶段对比指令微调(先纯检索数据 + in-batch negative,再混合非检索数据 + 关掉 in-batch negative)。 在 MTEB 56 个任务上 NV-Embed-v1 平均 69.32,v2 进一步用 hard-negative mining、合成数据、example-based 多类标签把分数推到 72.31,分别在 2024 年 5 月和 8 月登顶 MTEB 榜首。

Shallow Safety Alignment(Safety Alignment Should Be Made More Than Just a Few Tokens Deep,2024,Princeton & Google DeepMind,ICLR 2025 Outstanding Paper)的核心论点:当前 LLM 的 safety alignment 主要只修改了输出前几个 token 的生成分布。论文给该现象起名 shallow safety alignment,并指出它解释了 prefilling、adversarial suffix、decoding 参数攻击、fine-tuning 攻击等多种 jailbreak 共有的成因。

作者通过 per-token KL 散度分析、prefix 预填实验、fine-tuning 动态分析三组实验定位现象,再用一个简单的 data augmentation 与一个约束式 fine-tuning loss 验证"加深 alignment"确实能缓解多种攻击。实验主要在 Llama-2-7B-Chat 与 Gemma-1.1-7B-IT 上进行,评测用 HEx-PHI、AdvBench、MaliciousInstruct 三个数据集。

Gated Attention(Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free,2025,Qwen 团队,NeurIPS 2025 Best Paper)的核心思路:在 Scaled Dot-Product Attention 的输出后加一个 head-specific 的 elementwise sigmoid gate。在 1.7B dense 与 15B MoE(A2.54B 激活)模型上各训 3.5T tokens,PPL 下降约 0.05–0.27(视模型与设置而异),训练 loss spike 显著减少,长上下文外推能力提升,attention sink 大幅减弱(BOS token 的 attention 比例从 46.7% 降至 4.8%)。

作者系统比较了 5 个候选位置与多种 gate 形式(粒度、参数共享、乘法/加法、激活函数)共 30 个变体,上述方案在所有配置中表现最优。

MRL(Matryoshka Representation Learning,2022)的核心思路:训练时让同一个 d 维向量的前 m 个维度($m$ 取 ${8, 16, 32, \dots, d}$ 这一组对数刻度上的值)独立承担分类损失,得到一个由粗到细嵌套的表示。推理时按算力预算只取前 $m$ 维,效果与单独训练一个 m 维模型相当。

GritLM(Generative Representational Instruction Tuning,2024)的核心思路:用同一个 LLM 同时承担 embedding 和生成两类任务,通过 instruction 格式区分输入属于哪条流,分别用对比损失和语言建模损失训练,两个目标相加。 之前 HyDE 展示了"LLM 负责相关性,encoder 负责相似度"是可以解耦的,GritLM 进一步把两者合回一个模型。

读完 LLM2Vec-Gen 后再翻它的 reference,绕不开 HyDE(Precise Zero-Shot Dense Retrieval without Relevance Labels,2022)。LLM2Vec-Gen 的训练目标本质上是把 HyDE 的两步流程内化进 encoder,而 HyDE 的核心思路是:zero-shot 场景下与其让无监督 encoder 直接建模 query 和 document 的相关性,不如先让 LLM 根据 query 生成一段"假设性回答",再用 encoder 编码这段假答案去检索。

之前 LLM2Vec 证明了 decoder-only LLM 也能改造成不错的 embedding 模型。今年同一组 McGill NLP 的人发了 LLM2Vec-Gen,思路反过来了:embedding 表示的不再是 query 本身,而是 LLM 对该 query 的潜在回答。

举个具体例子:用户输入 “how to commit fraud”,传统 embedding 表示的是这条 query 的语义,因此检索结果会直接命中语料中和欺诈相关的内容。LLM2Vec-Gen 表示的则是模型本应给出的回答 “I’m sorry, but I can’t assist with that”,检索结果转向各种拒答类文本。安全对齐这项能力没有在 embedding 阶段重新训练,而是直接从生成端继承过来。

ICLR 2026 的另一篇杰出论文来自 Microsoft Research 与 Salesforce Research 的合作:LLMs Get Lost In Multi-Turn Conversation。结论也直白:把同样一个任务拆成多轮渐进式给出,15 个主流 LLM(包括 GPT-4.1、Gemini 2.5 Pro、Claude 3.7 Sonnet、o3、DeepSeek-R1)全部出现性能下降,平均降幅 39%。论文特别强调 unreliability 的增加在所有模型上水平接近,与模型规模、是否带 reasoning、是否闭源无关。

更有意思的是降幅的构成:aptitude(能力)只下降约 15%,unreliability(不可靠性)暴涨 112%。换句话说,模型多轮场景下并不是变笨了,而是变得不稳定,同一个任务跑十次得到的最好与最差结果之间能差出 50 个百分点。

DSI(Differentiable Search Index)是生成式检索方向较早的一篇代表性论文,发表于 NeurIPS 2022。其核心做法是:将整个文档库的内容编码进一个 Transformer 的参数中,检索时直接用 seq2seq 解码出文档 ID,省去倒排索引、向量库与近邻搜索这一整套独立组件。

更早的 GENRE(De Cao et al., 2020)已用 seq2seq 自回归地解码 Wikipedia 实体页面标题,DSI 在论文中也将其作为相关工作引用。DSI 的进一步贡献在于:将解码目标从有语义的实体名扩展到任意形式的 docid(包括随机整数和层次化语义 ID),并系统比较了文档表示、ID 表示与训练策略的影响。这把检索从一个系统工程问题,重新表述成了一个端到端的机器学习问题,索引等价于训练,检索等价于推理。

ICLR 2026 的两篇杰出论文奖(Outstanding Paper)里有一篇纯理论的工作,叫 Transformers are Inherently Succinct。一篇没有实验、没有 benchmark、全是数学证明的论文能拿最佳论文,评审委员会给的理由是"提出了一个新的视角来解释 Transformer 架构的强大能力"。原论文不太好读,涉及大量形式语言理论和复杂度理论的工具,这篇文章试图把核心结论和构造思路用更直觉的方式讲清楚。

这个"新视角"是什么?过去大家比的是表达力,即"谁能识别的语言范围更广",这篇论文换了个角度:同样一个语言,谁用更少的篇幅就能描述清楚?

Embedding 模型一直是 BERT 家族的领地。做语义搜索、做 RAG、做聚类,用的都是 encoder-only 模型。GPT、LLaMA 这些 decoder-only 模型虽然在生成任务上碾压一切,但大家默认它们不适合做 embedding,因为 causal attention 只能看前面的 token,无法构建完整的句子表示。

2024 年的 LLM2Vec (COLM 2024)发现这个默认假设可能不对。三步改造,不需要标注数据,不需要 GPT-4 生成的合成数据,就能把任意 decoder-only LLM 变成 MTEB 上的 SOTA embedding 模型。

曾经有个说法:互联网上的真人数据几年内就会被消耗殆尽,大模型的训练数据要见底了。Epoch AI 在 2022 年的 预测 说高质量文本数据可能在 2026 年前后耗尽。当时讨论很热烈,现在好像被提起不多了。

互联网上确实已经充斥大量 AI 生成的内容。随便搜个问题,前几条结果里大概率有 AI 写的。按照之前的忧虑,这些 AI 生成的文本会被爬回来当训练数据,模型吃自己的输出,越训越差,所谓的 model collapse。一篇 Nature 论文 证明了这一点:递归地在模型自身输出上训练,尾部分布会逐步消失,模型输出越来越同质化。

拆过 Claude Code 的记忆管理、上下文压缩、RAG、安全分类器、Edit 工具、子 Agent 缓存共享,每篇都是对着源码一行一行看。但看完这篇论文才意识到,我一直在看零件,没看整台机器。

论文叫 Dive into Claude Code: The Design Space of Today’s and Future AI Agent Systems ,46 页,从源码出发对 Claude Code 做了一次完整的架构解剖。不是使用教程,不是 benchmark 评测,而是回答一个工程问题:一个生产级 AI Agent 系统,代码到底在干什么?

你让 GPT-4 推荐一部被低估的科幻电影,它说《月球》。换 Claude 问同一个问题,也是《月球》。再问 Gemini,还是《月球》。一篇 NeurIPS 2025 Best Paper Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond) 用大规模实验量化了这个现象:不同语言模型在开放式问题上的回答,相似度高到反常。

RAG 的工作方式是每次提问都重新检索、重新拼接、重新推理。问一个需要综合五篇文档才能回答的问题,模型每次都得从头找到这五篇,拼起来,再给你答案。问十次,找十次。什么都没积累下来。

Karpathy 前两天发了一个叫 LLM Wiki 的 gist,提了一个不同的思路:别让模型每次现场检索了,让它把知识预先编译成一个结构化的 wiki,查询的时候直接查编译好的结果。

向量检索(dense retrieval)这几年几乎成了 RAG 的标配。把文档编码成一个向量,查询也编码成一个向量,算个余弦相似度就能检索。但一个基本问题很少被认真讨论过:一个 d 维向量,到底能表示多少种不同的 top-k 检索结果?

ICLR 2026 这篇来自 Google DeepMind 和 JHU 的论文 “On the Theoretical Limitations of Embedding-Based Retrieval” 给出了一个数学上的回答:不够。而且远远不够。

前段时间孙割有个暴论:“现在已经2026年了,大家能和AI聊天就不要和人类聊天。“后面还有什么删掉90年前出生人的联系方式、微信登味重之类的,典型的孙割风格,听个乐。

但抛开那些离谱的部分,作为AI重度用户,谈谈AI的好处和坏处。