从私有代码库自动部署Hexo站到GitHub Pages

发表于： 2022-05-02 分类于： Hexo 阅读：≈ 7分钟浏览：评论：

之前我们谈到如何从私有代码库自动部署Hugo站到GitHub Pages 。以为将之前的workflow yaml修改为Hexo的版本非常容易，亲自试了下发现打脸了。原因在于Hexo的依赖很多，因此环境配置比Hugo就复杂很多，同时还兼有各种包和库的兼容性问题。相比之下，Hugo就显得非常干净，使用GitHub Action容易不少。

NLP中的Adapters是什么？

发表于： 2022-05-01 分类于： Machine Learning 阅读：≈ 3分钟浏览：评论：

NLP adapters主要想解决不同任务需要finetune整个模型的痛点，与Prompting一样，是一种轻量级的训练方法，也是Transfer Learning的应用。按出现时间来看，finetune早于adapters，adapters早于prompting。今天来重看这篇Adapters的文章，可以更好地理解lightweight finetune的发展过程。

从私有代码库自动部署Hugo站到GitHub Pages

发表于： 2022-04-26 分类于： Hugo 阅读：≈ 3分钟浏览：评论：

Hugo是个极好的静态网站生成器。一个常见的情况是原始的网站源码放在私有代码库中，但希望自动化构建和部署的功能。假设私有代码库托管在github上，希望能自动化部署到GitHub Pages，这个功能可以通过github actions轻松搞定。

神经网络为什么可以表示语言模型

发表于： 2022-04-07 分类于： Machine Learning 阅读：≈ 1分钟浏览：评论：

最初对语言模型的理解源于n-gram语言模型，但后来出现了RNNLM等一众神经网络语言模型，就有了这个疑问：神经网络为什么可以表示语言模型？

首先，语言模型本质上是概率分布：

Scaling Laws for Neural Language Models简读

发表于： 2022-01-05 分类于： Machine Learning 阅读：≈ 1分钟浏览：评论：

# Scaling Laws for Neural Language Models

一篇实验Paper，调研了神经网络语言模型交叉熵损失变化满足power-law定律，挺有意思的文章。Transformer之后有许多探索不同模型结构的文章，并在一些任务上取得了新的SOTA，却鲜有人考虑影响模型性能的主要因素是什么。

C++ priority_queue使用示例

发表于： 2022-01-05 分类于： Coding Interview 阅读：≈ 2分钟浏览：评论：

LeetCode Top K Frequent Words 中会用到priority_queue，同时需要定义priority_queue的排序算法。

priority_queue的定义 :

CDN jsdelivr加速github图床

发表于： 2021-12-19 分类于： Hexo 阅读：≈ 1分钟浏览：评论：

在迁移博客之后，就切换了图床，使用github作免费的图床。但最近发现它不太稳定，常常打不开。研究发现可以用jsdelivr作github的CDN加速，只需替换下图片地址即可。这才是github图床正确的打开方式 :-)

MongoDB BulkWrite无限重试问题解决

发表于： 2021-12-16 分类于： MongoDB 阅读：≈ 2分钟浏览：评论：

之前我们谈到 # MongoDB事务重试实现 . 如果在事务中使用了BulkWrite()，那么这个新的事务API可能会无限重试从而导致服务器CPU使用率100% (MongoDB Server v4.4.6-ent, MongoDB Driver v2.12.2)。

NLP Prompt技术简介

发表于： 2021-12-14 分类于： Machine Learning 阅读：≈ 7分钟浏览：评论：

Prompt是当下最热的NLP技术之一，本文通过 what, why 和 how 三个问题对它进行介绍。力求简明扼要，不是完整综述，更多细节，可参考更多论文原文。

Prompt是什么

首先来看什么是Prompt，没有找到权威定义，引用一些论文中的描述来说明什么是Prompt。

Hugo添加自定义css和javascript

发表于： 2021-12-07 分类于： Hugo 阅读：≈ 4分钟浏览：评论：

最近从Hexo切到了Hugo博客生成引擎，主要原因是Hexo太慢，且在页面数量上千时会崩溃。

# Who Should Use Hugo?

Hugo is for people building a blog, a company site, a portfolio site, documentation, a single landing page, or a website with thousands of pages.

十月川北自驾游记——黄龙

发表于： 2021-11-30 分类于： Life 阅读：≈ 7分钟浏览：评论：

本文为十月川北自驾游记系列之五，黄龙。

十月川北自驾游记系列：

我们先去的九寨沟，回程玩黄龙，考虑到川主寺这边没什么好的酒店，就计划上午玩黄龙（10点到，1点出），晚上赶到都江堰住（晚7点左右），但显然这个安排是非常紧的，加上我们游览的速度并不快，导致不可能在晚上赶到都江堰。出于行车安全考虑，改住在茂县，住宿简直是个噩梦。

十月川北自驾游记——九寨沟

发表于： 2021-11-29 分类于： Life 阅读：≈ 12分钟浏览：评论：

本文为十月川北自驾游记系列之四，九寨沟。

十月川北自驾游记系列：

游记之前，先聊两个FAQ：

十月川北自驾游记——都江堰

发表于： 2021-11-29 分类于： Life 阅读：≈ 10分钟浏览：评论：

本文为十月川北自驾游记系列之三，都江堰。

十月川北自驾游记系列：

都江堰

问道青城山拜水都江堰

十月川北自驾游记——乐山

发表于： 2021-11-28 分类于： Life 阅读：≈ 7分钟浏览：评论：

本文为十月川北自驾游记系列之二，乐山。

十月川北自驾游记系列：

乐山

成都到乐山一日游，采用高铁+打车的方案，高铁单程大约50分钟。考虑到乐山的美食非常出名，希望三餐都在乐山解决。由于还在十一假期，成都去乐山的车次很好买，但晚上7点以后返程的车票就比较紧俏了，好在通过候补车票的方式买到了往返车票。

十月川北自驾游记——成都

发表于： 2021-11-28 分类于： Life 阅读：≈ 9分钟浏览：评论：

本文为十月川北自驾游记系列之第一篇，成都。

十月川北自驾游记系列：

继前年9月自驾青甘大环线之后，因为疫情原因，两年没出远门。又是一年秋天，连着十一休了一周年假，去九寨沟看看。

Nucleus Sampling与文本生成中的不同解码策略比较

发表于： 2021-11-25 分类于： Machine Learning 阅读：≈ 3分钟浏览：评论：

# The Curious Case of Neural Text Degeneration

这篇ICLR 2020年的文章我很喜欢，因为它简洁直观。文章首先提出一个有意思的发现：人说的自然语言常常出人意料，即说出的并不总是语言模型中概率最大的词，而Beam Search会总会选择最符合语言模型的词汇，因此生成的文本没有新意(less surprising)。之后提出了一种top-k sampling的改进方案来解决问题：nucleus sampling (top-p sampling)。

避免Pod反复自动重启

发表于： 2021-11-21 分类于： Misc 阅读：≈ 1分钟浏览：评论：

如果一个Pod在错误状态启动不了 (crashloopbackoff)，那么Kubernetes就会自动重启该Pod。这就给调试这个Pod带来了麻烦，无法exec到这个Pod上查看问题，也不容易看到这个Pod的日志，因为此时这个Pod已经被Kubernetes杀掉了：

使用LineByLine数据集训练GPT

发表于： 2021-11-14 分类于： Machine Learning 阅读：≈ 9分钟浏览：评论：

训练GPT等语言模型可以参考Huggingface Transformer训练语言模型的tutorial: Transformers Language Model Training

示例提供了三个脚本: run_clm.py, run_mlm.py 和 run_plm.py。GPT是个causal language model，可以使用 run_clm.py 进行训练或微调。但这脚本并不支持行式数据集，即每行一个训练样本的数据集。它默认的数据处理是按行读取样本并把它们连接成一个block_size的连续文本。

同一机器配置多个GitHub账号

发表于： 2021-11-03 分类于： Linux 阅读：≈ 3分钟浏览：评论：

在同一机器上对不同repo使用不同的github账号是个常见需求。举个例子，repo1托管在github账号x1下，而repo2托管在账号x2下，如何方便地在同一机器上使用不同账号自动git push到对应的远端？比较直接的做法是在不同repo目录下使用git config配置用户名，但这样有两个问题：

如何获取MongoDB每个块的数据大小

发表于： 2021-10-22 分类于： MongoDB 阅读：≈ 2分钟浏览：评论：

最近发现MongoDB分片集群的流量不太均衡，研究之后发现根本原因在于数据分布不均衡。虽然数据分布均衡不等于流量均衡，但还是应该尽量使得数据分布在不同shard之间基本均衡。三个shard的数据分布大概这样：