Transformer的简洁性:表达力的另一面
ICLR 2026 的两篇杰出论文奖(Outstanding Paper)里有一篇纯理论的工作,叫 Transformers are Inherently Succinct。一篇没有实验、没有 benchmark、全是数学证明的论文能拿最佳论文,评审委员会给的理由是"提出了一个新的视角来解释 Transformer 架构的强大能力"。原论文不太好读,涉及大量形式语言理论和复杂度理论的工具,这篇文章试图把核心结论和构造思路用更直觉的方式讲清楚。
这个"新视角"是什么?过去大家比的是表达力,即"谁能识别的语言范围更广",这篇论文换了个角度:同样一个语言,谁用更少的篇幅就能描述清楚?