0%

在迁移博客之后,就切换了图床,使用github作免费的图床。但最近发现它不太稳定,常常打不开。研究发现可以用jsdelivr作github的CDN加速,只需替换下图片地址即可。这才是github图床正确的打开方式 :-)

Prompt是当下最热的NLP技术之一,本文通过 what, why 和 how 三个问题对它进行介绍。力求简明扼要,不是完整综述,更多细节,可参考更多论文原文。

Prompt是什么

首先来看什么是Prompt,没有找到权威定义,引用一些论文中的描述来说明什么是Prompt。

最近从Hexo切到了Hugo博客生成引擎,主要原因是Hexo太慢,且在页面数量上千时会崩溃

# Who Should Use Hugo?

Hugo is for people building a blog, a company site, a portfolio site, documentation, a single landing page, or a website with thousands of pages.

本文为十月川北自驾游记系列之五,黄龙。

十月川北自驾游记系列:

  1. 十月川北自驾游记——成都
  2. 十月川北自驾游记——乐山
  3. 十月川北自驾游记——都江堰
  4. 十月川北自驾游记——九寨沟
  5. 十月川北自驾游记——黄龙

我们先去的九寨沟,回程玩黄龙,考虑到川主寺这边没什么好的酒店,就计划上午玩黄龙(10点到,1点出),晚上赶到都江堰住(晚7点左右),但显然这个安排是非常紧的,加上我们游览的速度并不快,导致不可能在晚上赶到都江堰。出于行车安全考虑,改住在茂县,住宿简直是个噩梦。

本文为十月川北自驾游记系列之二,乐山。

十月川北自驾游记系列:

  1. 十月川北自驾游记——成都
  2. 十月川北自驾游记——乐山
  3. 十月川北自驾游记——都江堰
  4. 十月川北自驾游记——九寨沟
  5. 十月川北自驾游记——黄龙

乐山

成都到乐山一日游,采用高铁+打车的方案,高铁单程大约50分钟。考虑到乐山的美食非常出名,希望三餐都在乐山解决。由于还在十一假期,成都去乐山的车次很好买,但晚上7点以后返程的车票就比较紧俏了,好在通过候补车票的方式买到了往返车票。

本文为十月川北自驾游记系列之第一篇,成都。

十月川北自驾游记系列:

  1. 十月川北自驾游记——成都
  2. 十月川北自驾游记——乐山
  3. 十月川北自驾游记——都江堰
  4. 十月川北自驾游记——九寨沟
  5. 十月川北自驾游记——黄龙

继前年9月 自驾青甘大环线 之后,因为疫情原因,两年没出远门。又是一年秋天,连着十一休了一周年假,去九寨沟看看。

# The Curious Case of Neural Text Degeneration

这篇ICLR 2020年的文章我很喜欢,因为它简洁直观。文章首先提出一个有意思的发现:人说的自然语言常常出人意料,即说出的并不总是语言模型中概率最大的词,而Beam Search会总会选择最符合语言模型的词汇,因此生成的文本没有新意(less surprising)。之后提出了一种top-k sampling的改进方案来解决问题:nucleus sampling (top-p sampling)。

如果一个Pod在错误状态启动不了 (crashloopbackoff),那么Kubernetes就会自动重启该Pod。这就给调试这个Pod带来了麻烦,无法exec到这个Pod上查看问题,也不容易看到这个Pod的日志,因为此时这个Pod已经被Kubernetes杀掉了:

训练GPT等语言模型可以参考Huggingface Transformer训练语言模型的tutorial: Transformers Language Model Training

示例提供了三个脚本: run_clm.py, run_mlm.pyrun_plm.py。GPT是个causal language model,可以使用 run_clm.py 进行训练或微调。但这脚本并不支持行式数据集,即每行一个训练样本的数据集。它默认的数据处理是按行读取样本并把它们连接成一个block_size的连续文本。

在同一机器上对不同repo使用不同的github账号是个常见需求。举个例子,repo1托管在github账号x1下,而repo2托管在账号x2下,如何方便地在同一机器上使用不同账号自动git push到对应的远端?比较直接的做法是在不同repo目录下使用git config配置用户名,但这样有两个问题:

Change stream是什么? 官方文档 :

Change streams allow applications to access real-time data changes without the complexity and risk of tailing the oplog. Applications can use change streams to subscribe to all data changes on a single collection, a database, or an entire deployment, and immediately react to them. Because change streams use the aggregation framework, applications can also filter for specific changes or transform the notifications at will.

升级Hexo到v8.5.0之后,发现mathjax不能正确显示公式。看了下 文档 ,发现推荐的hexo renderer是hexo-renderer-pandoc,而目前使用的是hexo-renderer-kramed,而且这个包已经不再更新也不推荐使用了。

卜算子自嘲 丁元英

本是后山人, 偶做前堂客。 醉舞经阁半卷书, 坐井说天阔。

大志戏功名, 海斗量福祸。 论到囊中羞涩时, 怒指乾坤错。

# 提升Hexo NexT主题加载速度 中留了个尾巴,优化到最后发现最影响PageSpeed Insights得分的竟然是Google Auto Ads。 这里 有个有意思的讨论,说加上auto ads之后页面加载得分显著变低,采纳答案说“你啥也做不了,也不用care”,下面有人反对这个观点,加载速度评测认为网站慢就会导致搜索排序降低。我赞成后者的观点,风一样的加载速度即我所欲也,本来无一物,何处惹尘埃!