ACL 2025 最佳论文:LLM 抵抗对齐的弹性现象
经过 SFT/RLHF 的安全模型,几百条样本就能让它恢复有害输出;普通客服对话上做一轮非恶意 SFT,也会顺带把安全拒答率拉下来。对齐为什么这么脆?
ACL 2025 最佳论文之一的 Language Models Resist Alignment: Evidence From Data Compression 给出的解释是弹性(elasticity):对齐微调没有真正改写模型的内部表征,只是把输出分布暂时偏离预训练分布;反向微调时回弹到预训练分布的速度远高于正向对齐。把语言模型当作无损压缩器推导,压缩率变化与数据集大小成反比,对齐数据规模远小于预训练语料,约束自然更弱。