LLM2Vec-Gen：让 Embedding 编码模型的回答而不是输入

发表于： 2026-05-03 分类于： NLP 阅读：≈ 7分钟浏览：评论：

之前 LLM2Vec 证明了 decoder-only LLM 也能改造成不错的 embedding 模型。今年同一组 McGill NLP 的人发了 LLM2Vec-Gen，思路反过来了：embedding 表示的不再是 query 本身，而是 LLM 对该 query 的潜在回答。

举个具体例子：用户输入 “how to commit fraud”，传统 embedding 表示的是这条 query 的语义，因此检索结果会直接命中语料中和欺诈相关的内容。LLM2Vec-Gen 表示的则是模型本应给出的回答 “I’m sorry, but I can’t assist with that”，检索结果转向各种拒答类文本。安全对齐这项能力没有在 embedding 阶段重新训练，而是直接从生成端继承过来。

输入为中心 vs 输出为中心？

主流 embedding 训练范式是对比学习：拉近 query 与正例文档、推开负例，最终把所有文本投影到一个新的共享空间。这个空间与 LLM 预训练时学到的输出表示已无对应关系。LLM 在 pretraining 和 alignment 阶段习得的安全对齐、推理能力、指令遵循，都被对比学习重塑表示的过程削掉。

LLM2Vec-Gen 的视角是：与其重新塑造一个 query-document 相关性空间，不如让 embedding 留在 LLM 自己的输出表示空间内。两条表面差异很大的 query，只要 LLM 的回答语义接近，embedding 就应当接近。这一思路 HyDE 已经提出过：推理时让 LLM 生成多份假设性回答，再编码并求平均。代价是每次查询都需要一次生成，且检索质量会随采样波动。LLM2Vec-Gen 把这一步内化到训练里，推理时只需一次前向，输出确定性 embedding。

训练过程：让特殊 token 学会压缩 LLM 的回答

整个训练只更新两类参数：一组新增的 compression token，以及两个轻量 MLP。LLM 主体全程冻结。

准备阶段，从 Tulu 数据集中取 16 万条无标注 query，让 LLM 自己生成回答。这里的"回答"也由模型自己产出，无需人工标注，整个流程严格自监督。再用一个无监督 embedding teacher 把这些回答编码为目标向量。teacher 选用与学生 LLM 同源的 unsupervised LLM2Vec 版本，这点很关键：teacher 必须与学生共享底层表示空间，且必须是无监督训练，否则会引入相关性偏置，破坏对回答内容的忠实表征。

训练时输入构造很简单：query 后拼接 n 个 compression token（默认 10），整段过一次冻结的 LLM，取 compression token 的最后一层 hidden state，经 MLP 投影并平均池化得到 embedding。两个损失同时优化：

对齐损失 L_align：让产出 embedding 在 MSE 意义下逼近 teacher 给出的回答 embedding
重构损失 L_recon：把 compression token 的隐状态作为 soft prompt 再喂给冻结 LLM，让其根据这些 soft prompt 自回归生成出原回答

对齐损失把 embedding 拉向 teacher 给出的回答向量；重构损失要求这组 compression token 必须能被冻结 LLM 自身解码出原回答，约束 embedding 落在 LLM 解码器实际可处理的向量子空间内。一个外部锚点，一个内部约束，两边夹住同一个解空间。8B 模型在 2 张 H100 上单 epoch、batch size 32 训练约 3.5 小时即可收敛。

实验结果：MTEB 自监督 SOTA，安全性和推理能力顺带继承

在 MTEB(eng, v2) 上，Qwen-3-8B 版本拿到 61.9 分，比无监督 LLM2Vec teacher 高 8.8%，距离监督 SOTA（65.7）还差 3.8 分。Llama-3.1/3.2、Qwen-2.5、Qwen-3 三大家族中所有评测过的尺寸（0.5B 到 8B）都一致超过了对应的 teacher。

分类别看，涨幅最大的是聚类（+22.7%）、STS（+9.8%）、分类（+7.0%）。这几个任务的共同点是：输入差异大但期望输出趋同。讨论同一事件的不同新闻应聚为一类，措辞迥异但语义相近的两句话应当相似度高。这正是输出中心范式的天然优势场景。检索任务的提升相对小，Qwen-3-4B 还掉了 1.3 分。论文给出的解释是：标准 retrieval 任务大量依赖词面重合，输入端有什么词文档里就应有什么词，输出中心反而绕了一道。

但只要换到需要深层语义理解的检索基准 BRIGHT，结论立刻翻转。LLM 的推理能力被 embedding 直接继承，模型越大继承得越彻底：1.7B 涨 11.7%，4B 涨 19.7%，Qwen-3-8B 在 BRIGHT 上比 LLM2Vec teacher 涨 35.6%。这条 scaling 曲线是整篇论文最值得记住的一张图：模型越大，输出中心范式带来的增益越多。

安全性结果同样直接：在专门衡量 retriever 对恶意 query 鲁棒性的 AdvBench-IR 上，所有尺寸模型的不安全检索率都明显下降，1.7B 降 22.6%，8B 降 17%。机制很简单：embedding 表示的是拒答内容，拒答之间彼此相似，反而与语料中的恶意内容拉远。

为什么 reconstruction loss 不能省

最有意思的细节藏在消融里。只用对齐损失时，MTEB-Lite 分数从 67.9 几乎不动（67.5），看起来 reconstruction 没什么用。但论文做了另一个实验：把两种训练得到的 embedding 都尝试用 LLM 解码回原文，只用对齐损失训练得到的 embedding 解出来全是乱码，加上 reconstruction 之后才能解出语义相关的句子。

这件事的意义不止于"可解释"。对齐损失只是把 embedding 推到一个跟 teacher 数值上接近的位置，但该位置 LLM 自身未必能处理：把它喂回 LLM 解码会得到乱码，说明这个向量落在了 LLM 解码器训练时几乎没覆盖的区域。reconstruction 强制 compression token 必须能被冻结 LLM 解码出原回答，等于把 embedding 约束在解码器实际可处理的子空间内。两个目标看似重复，实际从两个方向夹住了同一个解空间。

附带的一个用法是借助 Logit Lens 直接看 compression token 在词表上对应哪些词。论文给出的例子里，“polar bears live where” 对应的 token 是 “Arctic”、“ice”、“snow”，“disk cleanup means what” 对应 “space”、“temporary”、“files”。embedding 内部就是一组隐式的"答案关键词"，类似人脑听到问题先想答案的过程。

一个被忽视的细节：teacher 必须无监督

消融里把 teacher 换成监督训练过的 embedding 模型，整体表现并没有顺势上一个台阶，需要额外引入 LoRA 才能把分数拉回来。这与直觉相反：更强的 teacher 难道不应该带学生上一个台阶吗？

论文给出的解释是：监督 teacher 的表示空间已被 query-document 相关性重塑，里面填满了"哪些内容应被认为相关"的判断，而不再忠实于"内容本身长什么样"。LLM2Vec-Gen 的整个理论基础是 embedding 必须忠实代表 LLM 的回答内容，让一个相关性偏置的 teacher 来定义目标，等于把同一个范式问题再搬回来。

无监督 SimCSE 这种只做均匀性正则的弱 teacher 反而最合适：它几乎不破坏 LLM 原始表示几何，只把同义视图拉近、随机推开其他样本。这种"轻触"留出了足够的回旋空间，让 LLM 自身的语义结构透过来。

工程上的取舍

几个值得关注的部署细节。LLM 全程冻结这一点至关重要：同一份模型权重既能做生成又能做 embedding，不需要为 embedding 服务单独维护一份 checkpoint。LoRA 版本（r=8）能再涨 0.4 分，但代价是要切两份权重，论文倾向推荐 frozen 版本。

回答生成器对 MTEB 影响不大，主流尺寸的生成器之间分数大致在一两分之内浮动。但生成器选择会影响安全性：尺寸最小的模型生成的回答含有更多不安全内容，由此训出的 embedding 安全性也随之变差。换言之，LLM2Vec-Gen 把 embedding 的安全性与回答生成器的安全性绑在了一起，这既是优点也是脆弱点。

10 个 compression token 是甜点位。1 个 token 也能拿到 66.1 分，10 个升到 68.5，再增加到 100 个回报趋平。说明把一段回答压成定长向量的"信息瓶颈"宽度并不需要很大，与过去 RAG 压缩工作里的发现一致。

总结

输出中心 embedding 真正的吸引力不在于哪个 benchmark 涨了多少分，而在于它把 embedding 模型重新接入了 LLM 主线的能力曲线。过去训 embedding 是一项独立工程，与 LLM pretraining 和 alignment 平行推进。LLM 越变越强，embedding 模型并不会自动变强，每次都要重新构造对比学习数据。LLM2Vec-Gen 让 embedding 直接消费 LLM 的输出能力，主线 LLM 提升一分，embedding 跟着提升一分，两条赛道并入一条。

代价是 embedding 模型继承了上游所有问题。最致命的一条是：这套范式默认 LLM 的回答可作为检索目标的合理替身。一旦 LLM 在某个领域知识过时或出现幻觉，embedding 会带着错误答案去匹配，连"输入端写错了什么词"这种朴素纠偏机会都没有。再加上 LLM 拒答风格变更会导致 retriever 行为同步变更，偏见也照搬过来。这是一种把表征模型彻底"LLM 化"的赌博，押的是基础模型还会继续变好，且变好的方向恰好与检索任务的需求一致。