Finisky Garden

羊了个羊为什么这么火？

发表于： 2022-09-18 分类于： Product 阅读：≈ 3分钟浏览：评论：

继跳一跳，2048，合成大西瓜等一众休闲小游戏爆火之后，羊了个羊最近频繁上热搜，甚至成了一个梗，它为什么爆红？有什么过人之处？今天就来扒一扒。

Leveraging Passage Retrieval with Generative Models for Open Domain Question Answering 简读

发表于： 2022-09-13 分类于： Machine Learning 阅读：≈ 2分钟浏览：评论：

开放域问答常常需要借助外部知识生成更有信息量和准确的答复。当检索出相关知识后，如何将它们融入生成模型就是个问题。Fusion-in-Decoder (FiD) 这篇文章提出了一个简单有效的方案。

[EACL2021] [FiD] Leveraging Passage Retrieval with Generative Models for Open Domain Question Answering

'pandoc exited with code null' 解决方案

发表于： 2022-09-12 分类于： Hexo 阅读：≈ 2分钟浏览：评论：

随着博客文章的不断增加，Hexo生成这些文章需要的时间越来越长，最近居然能卡住几分钟，然后报错：

[ERROR][hexo-renderer-pandoc] pandoc exited with code null. at Object._prettifyError (/home/finisky/node_modules/nunjucks/src/lib.js:36:11)

花了不少时间研究到底问题在哪，最终发现是VM的配置太低所致…… :-(

Long Time No See! Open-Domain Conversation with Long-Term Persona Memory 简读

发表于： 2022-09-11 分类于： Machine Learning 阅读：≈ 3分钟浏览：评论：

对话系统中的个性化，或者说带有人设的AI对话机器人是个挺热的研究问题。随着虚拟人的爆火，如何能打造千人千面与用户沟通的AI，也就自然登上了舞台。今天就来看一篇ACL2022findings的文章：

[ACL2022findings] Long Time No See! Open-Domain Conversation with Long-Term Persona Memory

很多对话系统不能很好地利用用户对话的长程记忆，从而影响对话效果。百度的这篇文章提出了一个新任务 Long-term Memory Conversation (LeMon) 并发布了对应的数据集 DuLeMon。该系统可以在用户和AI对话的过程中动态提取有用的Persona Memory，并在之后的对话中同时考虑双方的Persona Memory进行更好的对话。

AI虚拟主播带货是不是个好生意？

发表于： 2022-08-22 分类于： Product 阅读：≈ 2分钟浏览：评论：

随着元宇宙概念的兴起，AI虚拟主播也跟着又火起来了，但AI虚拟主播真是个好生意吗？

AI虚拟主播大致可分为两类，一类是纯的AI虚拟主播，另一类是真人驱动的AI虚拟主播。后者要解决的是真人出镜的问题，本文主要讨论的是前者。

Hexo去LeanCloud依赖

发表于： 2022-08-09 分类于： Hexo 阅读：≈ 5分钟浏览：评论：

7.19日，收到了LeanCloud的邮件，大意如下：

8 月 1 日起，LeanCloud 国际版共享域名不再向中国大陆提供服务
为履行合规责任，降低平台风险，LeanCloud 国际版共享域名将于 2022 年 8 月 1 日起不再向中国大陆的最终用户提供服务，国际版共享域名仅服务于海外用户。

FiniCounter: 静态网站访问量统计工具

发表于： 2022-08-07 分类于： Hexo 阅读：≈ 3分钟浏览：评论：

静态博客如Hexo/Hugo/Jekyll近些年很流行，markdown写作，一键生成部署，无需后端，可托管在各种网站平台，非常方便。但正因为无后端，动态信息的存取就成为了痛点：文章阅读数统计，评论系统等等。本站采用的是Hexo+Waline的方式实现文章阅读数统计与评论系统，最近也去掉了LeanCloud的依赖，所有数据使用MongoDB存储。

抖音为什么如此成功？

发表于： 2022-07-24 分类于： Product 阅读：≈ 3分钟浏览：评论：

抖音自2016年9月于今日头条孵化上线，定位为适合中国大陆年轻人的音乐短视频社区，应用为垂直音乐的UGC短视频。从数据来看，抖音主站在2021年第一季度的平均日活已过6亿，非常惊人，可见用户对于抖音产品的认可和依赖。同时，笔者周围有不少人的抖音都是装了又卸，卸了又装，感叹：刷抖音太费时间了，一不小心几个小时就过去了。那么，抖音是如何在互联网行业中突出重围，脱颖而出的呢？

为什么微信能做支付，支付宝做不了社交

发表于： 2022-07-15 分类于： Product 阅读：≈ 2分钟浏览：评论：

关于"为什么微信能做支付，支付宝做不了社交"这个问题之前有过很多讨论，最近看到一个最直接直观的解释是，因为应用场景的包含关系不同。

回滚老版本Stylish Chrome插件

发表于： 2022-07-13 分类于： Misc 阅读：≈ 2分钟浏览：评论：

(从前) Stylish 是个特别好的Chrome插件，可以自定义不同的css style，覆盖网站原有的风格和字体。我使用Stylish主要是将网页本身的英文字体改为Monaco，中文字体是雅黑。

Hexo生成错误的永久链接日期

发表于： 2022-06-11 分类于： Hexo 阅读：≈ 2分钟浏览：评论：

使用 # 从私有代码库自动部署Hexo站到GitHub Pages 之后，真是幺娥子迭出：先是文章的最后编辑时间不正确，现在又发现有些页面的永久链接的日期会差一天，比如markdown写的是2020-07-13 00:50:05，生成的永久链接变成了2020/07/12。这个错误可能会导致搜索引擎找不到老页面，从而影响搜索展示。

什么是一个优秀的校招候选人

发表于： 2022-06-06 分类于： Coding Interview 阅读：≈ 6分钟浏览：评论：

作为面试官面试过数百候选人，深知招人难，招合适的人更难。同时，所谓“良禽择木而栖”，找一份自己满意的工作也并非易事。社招由于岗位职责的不同，与校招的标准有较大区别，下回分解。今天我们从面试官的角度来聊聊，对于技术研发岗，什么是一个优秀的校招候选人。

深度文本检索模型：DPR, PolyEncoders, DCBERT, ColBERT

发表于： 2022-06-03 分类于： Machine Learning 阅读：≈ 5分钟浏览：评论：

文本匹配与检索是NLP中的经典问题，主要研究两个文本的主义相似度，通常用在检索系统的召回阶段。传统的召回方案如tf-idf和BM25具有速度优势，但在语义匹配方面有所欠缺。随着预训练模型的发展，使用深度模型进行文本检索变得必要与可行。

GitHub Checkout Action恢复文件修改时间

发表于： 2022-05-15 分类于： Hexo 阅读：≈ 2分钟浏览：评论：

在 # 从私有代码库自动部署Hexo站到GitHub Pages , 我们用GitHub Action实现了自动化部署Hexo站。但还存在一个问题，在每次部署后所有文章的修改时间都变成了当前时间，而非实际的修改时间。这样的问题在于所有历史文章在每次部署之后都会发生变化，会让搜索引擎误认为这个网站时常改动。

LoRA: Low-Rank Adaptation of Large Language Models 简读

发表于： 2022-05-13 分类于： Machine Learning 阅读：≈ 4分钟浏览：评论：

之前我们谈到 Adapters 与 Prompting 都是轻量级的训练方法，所谓 lightweight-finetuning。今天来看一下另一种轻量级训练大语言模型的方法:

LoRA: Low-Rank Adaptation of Large Language Models

从私有代码库自动部署Hexo站到GitHub Pages

发表于： 2022-05-02 分类于： Hexo 阅读：≈ 7分钟浏览：评论：

之前我们谈到如何从私有代码库自动部署Hugo站到GitHub Pages 。以为将之前的workflow yaml修改为Hexo的版本非常容易，亲自试了下发现打脸了。原因在于Hexo的依赖很多，因此环境配置比Hugo就复杂很多，同时还兼有各种包和库的兼容性问题。相比之下，Hugo就显得非常干净，使用GitHub Action容易不少。

NLP中的Adapters是什么？

发表于： 2022-05-01 分类于： Machine Learning 阅读：≈ 3分钟浏览：评论：

NLP adapters主要想解决不同任务需要finetune整个模型的痛点，与Prompting一样，是一种轻量级的训练方法，也是Transfer Learning的应用。按出现时间来看，finetune早于adapters，adapters早于prompting。今天来重看这篇Adapters的文章，可以更好地理解lightweight finetune的发展过程。