LLM2Vec:把 Decoder LLM 变成 Embedding 模型
Embedding 模型一直是 BERT 家族的领地。做语义搜索、做 RAG、做聚类,用的都是 encoder-only 模型。GPT、LLaMA 这些 decoder-only 模型虽然在生成任务上碾压一切,但社区默认它们不适合做 embedding,因为 causal attention 只能看前面的 token,没法构建完整的句子表示。
LLM2Vec (COLM 2024)说这个默认假设是错的。三步改造,不需要标注数据,不需要 GPT-4 生成的合成数据,就能把任意 decoder-only LLM 变成 MTEB 上的 SOTA embedding 模型。