ICLR 2026 杰出论文:LLM 在多轮对话中会迷路
ICLR 2026 的另一篇杰出论文来自 Microsoft Research 与 Salesforce Research 的合作:LLMs Get Lost In Multi-Turn Conversation。结论也直白:把同样一个任务拆成多轮渐进式给出,15 个主流 LLM(包括 GPT-4.1、Gemini 2.5 Pro、Claude 3.7 Sonnet、o3、DeepSeek-R1)全部出现性能下降,平均降幅 39%。论文特别强调 unreliability 的增加在所有模型上水平接近,与模型规模、是否带 reasoning、是否闭源无关。
更有意思的是降幅的构成:aptitude(能力)只下降约 15%,unreliability(不可靠性)暴涨 112%。换句话说,模型多轮场景下并不是变笨了,而是变得不稳定,同一个任务跑十次得到的最好与最差结果之间能差出 50 个百分点。