Finisky Garden

Easy doesn't enter into grown-up life.

0%

开卷有益是一个成语,最早出自《与子俨等疏》。 意思是读书总有益处。常用以勉励人们勤奋好学,多读书就会受益。

现在这年头,出书不要太容易,烂书也是出奇的多,开卷有益这词儿已经不适用了。就随口说说我最近翻过的几本烂书:《断舍离》,《组织的力量》,《底层逻辑》。

Read more »

今天来看看这篇 ACL2022 的文章:

[ACL2022] Beyond Goldfish Memory: Long-Term Open-Domain Conversation

问题比较清楚,提升长期开放域对话的效果。题目用到一个梗:超越金鱼的7秒记忆,可以看出论文要解决的问题是跨越数小时甚至数天的会话。

注意: 这里是“长期” (long-term) 对话,不是 “长程”对话,即对话时间跨度比较长的对话。

本文同时发布了一个人与人进行长期对话的数据集 Multi-Session Chat (MSC),其中双方通过之前的会话互相了解对方的喜好,并在之后的对话中得以体现。

在长期对话中,使用retrieval-augmented的方式,结合对上下文对话的摘要,可以达到超越传统encoder-decoder架构的模型效果。

Read more »

继跳一跳,2048,合成大西瓜等一众休闲小游戏爆火之后,羊了个羊最近频繁上热搜,甚至成了一个梗,它为什么爆红?有什么过人之处?今天就来扒一扒。

Read more »

开放域问答常常需要借助外部知识生成更有信息量和准确的答复。当检索出相关知识后,如何将它们融入生成模型就是个问题。Fusion-in-Decoder (FiD) 这篇文章提出了一个简单有效的方案。

[EACL2021] [FiD] Leveraging Passage Retrieval with Generative Models for Open Domain Question Answering

Read more »

随着博客文章的不断增加,Hexo生成这些文章需要的时间越来越长,最近居然能卡住几分钟,然后报错:

[ERROR][hexo-renderer-pandoc] pandoc exited with code null. at Object._prettifyError (/home/finisky/node_modules/nunjucks/src/lib.js:36:11)

花了不少时间研究到底问题在哪,最终发现是VM的配置太低所致…… :-(

Read more »

As the post number increases, Hexo generate posts slower and slower. Recently, it usually generates posts for several minutes and report the following error:

[ERROR][hexo-renderer-pandoc] pandoc exited with code null. at Object._prettifyError (/home/finisky/node_modules/nunjucks/src/lib.js:36:11)

I spent several hours to figure out the issue. Finally, I found the root cause is ... VM memory is too small ... :-(

Read more »

对话系统中的个性化,或者说带有人设的AI对话机器人是个挺热的研究问题。随着虚拟人的爆火,如何能打造千人千面与用户沟通的AI,也就自然登上了舞台。今天就来看一篇ACL2022findings的文章:

[ACL2022findings] Long Time No See! Open-Domain Conversation with Long-Term Persona Memory

很多对话系统不能很好地利用用户对话的长程记忆,从而影响对话效果。百度的这篇文章提出了一个新任务 Long-term Memory Conversation (LeMon) 并发布了对应的数据集 DuLeMon。该系统可以在用户和AI对话的过程中动态提取有用的Persona Memory,并在之后的对话中同时考虑双方的Persona Memory进行更好的对话。

Read more »

随着元宇宙概念的兴起,AI虚拟主播也跟着又火起来了,但AI虚拟主播真是个好生意吗?

AI虚拟主播大致可分为两类,一类是纯的AI虚拟主播,另一类是真人驱动的AI虚拟主播。后者要解决的是真人出镜的问题,本文主要讨论的是前者。

Read more »

7.19日,收到了LeanCloud的邮件,大意如下:

8 月 1 日起,LeanCloud 国际版共享域名不再向中国大陆提供服务

为履行合规责任,降低平台风险,LeanCloud 国际版共享域名将于 2022 年 8 月 1 日起不再向中国大陆的最终用户提供服务,国际版共享域名仅服务于海外用户。

静态网站的状态存取是个痛点。好消息是本站使用Hexo NexT主题,天然集成了文章阅读量的功能,后端存储是LeanCloud,仅需配置app_idapp_key。而评论系统是另一个坑,一年前 切换到了Waline,一举攻克了这个难题,但当时Waline也依赖于LeanCloud。

这次LeanCloud国际版共享域名不向中国大陆提供服务改动,对Waline无影响,因为Waline的前端部署在Vercel海外节点。但如果网站面向大陆用户,文章阅读量统计会受影响。

因此,考虑将本站去LeanCloud依赖。方法很简单,将文章阅读量切换至Waline,同时Waline的后端存储改用MongoDB。去依赖需要你有一台服务器,自建MongoDB,或者直接使用 MongoDB Atlas的免费版

Read more »

Static website such as Hexo/Hugo/Jekyll is very popular recent years. It is fast, easy to write, deploy and host. However, no free lunch: it is non-trivial to store dynamic information such as pageview counts and comments under the serverless architecture. This site uses Waline to implement article view count and comment system.

Accidently I found that we do not have a full site pageview counter. Waline has post-level counter instead of site-level one.

Just DIY: FiniCounter. Use Vercel serverless function as the web API framework, MongoDB as the storage. When a user comes to any page of the site, we invoke the count API through fetch API, increment the counter in the MongoDB, return the updated value and display in the page.

Initially I want to develop a tool for myself. After I finish it, I decide to make it as a public free service :-) . FiniCounter looks like this:

FiniCounter Demo

Read more »