Finisky Garden

NLP, 软件工程, 产品设计

最近读到一篇有趣的文章,讨论了当前许多新的AI搜索产品是否会取代Google:

Here’s why AI search engines really can’t kill Google

先简要地看下这篇文章在说什么:

如果要取代Google,那么这些新的产品必须可以完成Google能做的所有事情。于是,作者先收集了Top100的Google搜索查询,然后将它们输入到当前最好的一些AI搜索产品中。作者认为,虽然在某些情况下,基于LLM的搜索比一页Google搜索结果有用,但在大多数情况下,AI搜索取代Google还是相当困难的。

阅读全文 »

After upgrading Ubuntu 20.04 LTS to Ubuntu 22.04LTS, the server always freezes after ~10 minutes. All services are down, cannot ssh, connect to serial console but cannot input. However, this issue never happen before release upgrade.

阅读全文 »

Cannot believe that Word has such a bug: when tracking changes, wildcard replacement cannot correctly work.

I want to batch replace English parentheses with Chinese parentheses, so I use wildcard replacement:

Find What: \((*)\)
Options: Use Wildcards
Replace With: (\1)

For example, for "(abc)", the expected result is "(abc)", however, the result is "abc()".

阅读全文 »

没想到浓眉大眼的Office Word居然还有这种Bug:在追踪修订时,通配符不能正确替换。

在处理一个大型文档时,需要批量将英文括号替换成中文括号,因此需要使用到通配符替换:

Find What: \((*)\)
Options: Use Wildcards
Replace With: (\1)

预期行为是:将“(abc)”替换为“(abc)”,却没料到被替换成了“abc()”。

阅读全文 »

最早听说语言模型的本质是压缩器的想法是在黄仁勋和Ilya的围炉对谈,当时只是直觉上觉得这个说法很有意思,但却没想明白原理是什么。2023年9月,DeepMind写论文进一步论证了语言建模与压缩的等价性:

# Language Modeling Is Compression

长期以来,人们已经确认预测模型可以转化为无损压缩器,反之亦然。值得注意的是,近年来,机器学习领域一直专注于训练规模越来越大且功能强大的自监督语言模型。由于这些大语言模型展示了很强的预测能力,它们自然而然地也被认为是强大的压缩器。文中研究者主张通过压缩的视角来审视预测问题,并依此评估大型基座模型的压缩能力。实验证明大语言模型也是强大的通用预测器,语言模型即压缩的视角为扩展定律和上下文学习提供了新的见解。例如,Chinchilla 70B虽然主要用文本训练,但却能将ImageNet patches和LibriSpeech样本压缩到其原始大小的43.4%和16.4%,分别超过了领域特定的压缩器,如PNG(58.5%)和FLAC(30.3%)。最后,研究者证实基于预测与压缩的等价性可以使用任何压缩器来构建条件生成模型。

本文试图用简洁的语言(无公式)来说明“语言建模即压缩”的思想。原论文的思路是借助算术编码的原理和过程,然后将语言模型建模的过程与算术编码过程进行映射并证明它们等价。这个思路有些类似于NP难问题的证明:将一个问题在多项式时间归约成已知的某个NP难问题。

阅读全文 »

“涌现能力”可谓是大模型的神来之笔:这些能力在小规模模型中不存在,而仅在大规模模型中存在。涌现能力的神奇之处就在于两点:第一,锐利性,似乎它们瞬间从不存在变为存在;第二,不可预测性,不知道在什么规模的模型上就突现了。

涌现能力相关的讨论在大模型出圈之后一直被津津乐道,尤其是在训练出的模型能力不达预期时,时常背锅:可能是模型不够大,所以不具备这样的能力。问题来了,涌现能力是否真的是大规模模型才拥有的魔法?

NeurIPS 2023的Main Track Outstanding Paper的二者之一,提出了对涌现能力的一种解释:对于特定任务和模型,在分析模型输出时,涌现能力的出现是由于研究人员选择的衡量指标所致,而非模型行为随着规模扩大而发生了根本性变化。具体而言,非线性或不连续的衡量标准会产生明显的涌现能力,而线性或连续的度量标准会导致模型性能的平滑、连续、可预测的变化。

# Announcing the NeurIPS 2023 Paper Awards

# Are Emergent Abilities of Large Language Models a Mirage?

阅读全文 »

一篇有趣的综述文章,写于ChatGPT问世一周年之时,总结了开源大型语言模型(LLM)在过去一年中的发展情况。首先介绍了开源LLM的兴起,以及它们如何在各种自然语言处理任务中取得了显著的进展。然后讨论了开源LLM与闭源LLM之间的竞争,以及它们在性能和应用方面的差异。文中提到了一些具体的研究成果和进展,包括知识获取、情感分析、代码生成等。最后,论文探讨了开源LLM的未来发展方向,以及在伦理和安全方面的挑战和应对措施。

# ChatGPT's One-year Anniversary: Are Open-Source Large Language Models Catching up?

阅读全文 »

过去半年,MSR发布了一套名为Phi的小模型(SLMs),取得了卓越的性能表现。其中第一个模型,1.3B 的Phi-1,实现了在现有SLMs中对Python编码的最佳性能(在HumanEval和MBPP数据集上)。随后,他们将注意力扩展到常识推理和语言理解,并创建了一个新的 1.3B 模型,命名为Phi-1.5,其性能相当于规模更大5倍的模型。

最近MSR发布了Phi-2,一个 2.7B 的语言模型,展示了卓越的推理和语言理解能力,表现出小于 13B 语言模型的最好效果。在各种测试中,Phi-2与规模大达25倍的模型差不多或获胜,主要归功于模型规模和训练数据方面的创新。MSR已经在Azure AI Studio模型目录中提供了Phi-2,以促进语言模型的研究和开发。

Phi-2 未放出细节的技术报告,具体可参考原博客:

# Phi-2: The surprising power of small language models

第一代Phi-1解读:数据为王: Textbooks Are All You Need

阅读全文 »

昆仑的天工模型一直走开源路线,最近放出了技术报告,其中关于预训练模型刷榜作弊的部分引发了广泛的讨论,把大家心照不宣的事情首次放到了台面上 :-)。本文来看下这篇技术报告的亮点(非全文精读,仅摘要有趣的点,细节可阅读原论文)。

# Skywork: A More Open Bilingual Foundation Model

阅读全文 »
0%