LLM2Vec-Gen:让 Embedding 编码模型的回答而不是输入
之前 LLM2Vec 证明了 decoder-only LLM 也能改造成不错的 embedding 模型。今年同一组 McGill NLP 的人发了 LLM2Vec-Gen,思路反过来了:embedding 表示的不再是 query 本身,而是 LLM 对该 query 的潜在回答。
举个具体例子:用户输入 “how to commit fraud”,传统 embedding 表示的是这条 query 的语义,因此检索结果会直接命中语料中和欺诈相关的内容。LLM2Vec-Gen 表示的则是模型本应给出的回答 “I’m sorry, but I can’t assist with that”,检索结果转向各种拒答类文本。安全对齐这项能力没有在 embedding 阶段重新训练,而是直接从生成端继承过来。
输入为中心 vs 输出为中心?

主流 embedding 训练范式是对比学习:拉近 query 与正例文档、推开负例,最终把所有文本投影到一个新的共享空间。这个空间与 LLM 预训练时学到的输出表示已无对应关系。LLM 在 pretraining 和 alignment 阶段习得的安全对齐、推理能力、指令遵循,都被对比学习重塑表示的过程削掉。
LLM2Vec-Gen 的视角是:与其重新塑造一个 query-document 相关性空间,不如让 embedding 留在 LLM 自己的输出表示空间内。两条表面差异很大的 query,只要 LLM 的回答语义接近,embedding 就应当接近。这一思路 HyDE 已经提出过:推理时让 LLM 生成多份假设性回答,再编码并求平均。代价是每次查询都需要一次生成,且检索质量会随采样波动。LLM2Vec-Gen 把这一步内化到训练里,推理时只需一次前向,输出确定性 embedding。
训练过程:让特殊 token 学会压缩 LLM 的回答

整个训练只更新两类参数:一组新增的 compression token,以及两个轻量 MLP。LLM 主体全程冻结。
准备阶段,从 Tulu 数据集中取 16 万条无标注 query,让 LLM 自己生成回答。这里的"回答"也由模型自己产出,无需人工标注,整个流程严格自监督。再用一个无监督 embedding teacher 把这些回答编码为目标向量。teacher 选用与学生 LLM 同源的 unsupervised LLM2Vec 版本,这点很关键:teacher 必须与学生共享底层表示空间,且必须是无监督训练,否则会引入相关性偏置,破坏对回答内容的忠实表征。
训练时输入构造很简单:query 后拼接 n 个 compression token(默认 10),整段过一次冻结的 LLM,取 compression token 的最后一层 hidden state,经 MLP 投影并平均池化得到 embedding。两个损失同时优化:
- 对齐损失 L_align:让产出 embedding 在 MSE 意义下逼近 teacher 给出的回答 embedding
- 重构损失 L_recon:把 compression token 的隐状态作为 soft prompt 再喂给冻结 LLM,让其根据这些 soft prompt 自回归生成出原回答
对齐损失把 embedding 拉向 teacher 给出的回答向量;重构损失要求这组 compression token 必须能被冻结 LLM 自身解码出原回答,约束 embedding 落在 LLM 解码器实际可处理的向量子空间内。一个外部锚点,一个内部约束,两边夹住同一个解空间。8B 模型在 2 张 H100 上单 epoch、batch size 32 训练约 3.5 小时即可收敛。
实验结果:MTEB 自监督 SOTA,安全性和推理能力顺带继承

在 MTEB(eng, v2) 上,Qwen-3-8B 版本拿到 61.9 分,比无监督 LLM2Vec teacher 高 8.8%,距离监督 SOTA(65.7)还差 3.8 分。Llama-3.1/3.2、Qwen-2.5、Qwen-3 三大家族中所有评测过的尺寸(0.5B 到 8B)都一致超过了对应的 teacher。
分类别看,涨幅最大的是聚类(+22.7%)、STS(+9.8%)、分类(+7.0%)。这几个任务的共同点是:输入差异大但期望输出趋同。讨论同一事件的不同新闻应聚为一类,措辞迥异但语义相近的两句话应当相似度高。这正是输出中心范式的天然优势场景。检索任务的提升相对小,Qwen-3-4B 还掉了 1.3 分。论文给出的解释是:标准 retrieval 任务大量依赖词面重合,输入端有什么词文档里就应有什么词,输出中心反而绕了一道。
但只要换到需要深层语义理解的检索基准 BRIGHT,结论立刻翻转。LLM 的推理能力被 embedding 直接继承,模型越大继承得越彻底:1.7B 涨 11.7%,4B 涨 19.7%,Qwen-3-8B 在 BRIGHT 上比 LLM2Vec teacher 涨 35.6%。这条 scaling 曲线是整篇论文最值得记住的一张图:模型越大,输出中心范式带来的增益越多。
安全性结果同样直接:在专门衡量 retriever 对恶意 query 鲁棒性的 AdvBench-IR 上,所有尺寸模型的不安全检索率都明显下降,1.7B 降 22.6%,8B 降 17%。机制很简单:embedding 表示的是拒答内容,拒答之间彼此相似,反而与语料中的恶意内容拉远。
为什么 reconstruction loss 不能省
最有意思的细节藏在消融里。只用对齐损失时,MTEB-Lite 分数从 67.9 几乎不动(67.5),看起来 reconstruction 没什么用。但论文做了另一个实验:把两种训练得到的 embedding 都尝试用 LLM 解码回原文,只用对齐损失训练得到的 embedding 解出来全是乱码,加上 reconstruction 之后才能解出语义相关的句子。
这件事的意义不止于"可解释"。对齐损失只是把 embedding 推到一个跟 teacher 数值上接近的位置,但该位置 LLM 自身未必能处理:把它喂回 LLM 解码会得到乱码,说明这个向量落在了 LLM 解码器训练时几乎没覆盖的区域。reconstruction 强制 compression token 必须能被冻结 LLM 解码出原回答,等于把 embedding 约束在解码器实际可处理的子空间内。两个目标看似重复,实际从两个方向夹住了同一个解空间。
附带的一个用法是借助 Logit Lens 直接看 compression token 在词表上对应哪些词。论文给出的例子里,“polar bears live where” 对应的 token 是 “Arctic”、“ice”、“snow”,“disk cleanup means what” 对应 “space”、“temporary”、“files”。embedding 内部就是一组隐式的"答案关键词",类似人脑听到问题先想答案的过程。
一个被忽视的细节:teacher 必须无监督
消融里把 teacher 换成监督训练过的 embedding 模型,整体表现并没有顺势上一个台阶,需要额外引入 LoRA 才能把分数拉回来。这与直觉相反:更强的 teacher 难道不应该带学生上一个台阶吗?
论文给出的解释是:监督 teacher 的表示空间已被 query-document 相关性重塑,里面填满了"哪些内容应被认为相关"的判断,而不再忠实于"内容本身长什么样"。LLM2Vec-Gen 的整个理论基础是 embedding 必须忠实代表 LLM 的回答内容,让一个相关性偏置的 teacher 来定义目标,等于把同一个范式问题再搬回来。
无监督 SimCSE 这种只做均匀性正则的弱 teacher 反而最合适:它几乎不破坏 LLM 原始表示几何,只把同义视图拉近、随机推开其他样本。这种"轻触"留出了足够的回旋空间,让 LLM 自身的语义结构透过来。
工程上的取舍
几个值得关注的部署细节。LLM 全程冻结这一点至关重要:同一份模型权重既能做生成又能做 embedding,不需要为 embedding 服务单独维护一份 checkpoint。LoRA 版本(r=8)能再涨 0.4 分,但代价是要切两份权重,论文倾向推荐 frozen 版本。
回答生成器对 MTEB 影响不大,主流尺寸的生成器之间分数大致在一两分之内浮动。但生成器选择会影响安全性:尺寸最小的模型生成的回答含有更多不安全内容,由此训出的 embedding 安全性也随之变差。换言之,LLM2Vec-Gen 把 embedding 的安全性与回答生成器的安全性绑在了一起,这既是优点也是脆弱点。
10 个 compression token 是甜点位。1 个 token 也能拿到 66.1 分,10 个升到 68.5,再增加到 100 个回报趋平。说明把一段回答压成定长向量的"信息瓶颈"宽度并不需要很大,与过去 RAG 压缩工作里的发现一致。
总结
输出中心 embedding 真正的吸引力不在于哪个 benchmark 涨了多少分,而在于它把 embedding 模型重新接入了 LLM 主线的能力曲线。过去训 embedding 是一项独立工程,与 LLM pretraining 和 alignment 平行推进。LLM 越变越强,embedding 模型并不会自动变强,每次都要重新构造对比学习数据。LLM2Vec-Gen 让 embedding 直接消费 LLM 的输出能力,主线 LLM 提升一分,embedding 跟着提升一分,两条赛道并入一条。
代价是 embedding 模型继承了上游所有问题。最致命的一条是:这套范式默认 LLM 的回答可作为检索目标的合理替身。一旦 LLM 在某个领域知识过时或出现幻觉,embedding 会带着错误答案去匹配,连"输入端写错了什么词"这种朴素纠偏机会都没有。再加上 LLM 拒答风格变更会导致 retriever 行为同步变更,偏见也照搬过来。这是一种把表征模型彻底"LLM 化"的赌博,押的是基础模型还会继续变好,且变好的方向恰好与检索任务的需求一致。