Finisky Garden

NLP, 软件工程, 产品设计

今天来看看这篇 ACL2022 的文章:

[ACL2022] Beyond Goldfish Memory: Long-Term Open-Domain Conversation

问题比较清楚,提升长期开放域对话的效果。题目用到一个梗:超越金鱼的7秒记忆,可以看出论文要解决的问题是跨越数小时甚至数天的会话。

注意: 这里是“长期” (long-term) 对话,不是 “长程”对话,即对话时间跨度比较长的对话。

本文同时发布了一个人与人进行长期对话的数据集 Multi-Session Chat (MSC),其中双方通过之前的会话互相了解对方的喜好,并在之后的对话中得以体现。

在长期对话中,使用retrieval-augmented的方式,结合对上下文对话的摘要,可以达到超越传统encoder-decoder架构的模型效果。

阅读全文 »

继跳一跳,2048,合成大西瓜等一众休闲小游戏爆火之后,羊了个羊最近频繁上热搜,甚至成了一个梗,它为什么爆红?有什么过人之处?今天就来扒一扒。

阅读全文 »

开放域问答常常需要借助外部知识生成更有信息量和准确的答复。当检索出相关知识后,如何将它们融入生成模型就是个问题。Fusion-in-Decoder (FiD) 这篇文章提出了一个简单有效的方案。

[EACL2021] [FiD] Leveraging Passage Retrieval with Generative Models for Open Domain Question Answering

阅读全文 »

随着博客文章的不断增加,Hexo生成这些文章需要的时间越来越长,最近居然能卡住几分钟,然后报错:

[ERROR][hexo-renderer-pandoc] pandoc exited with code null. at Object._prettifyError (/home/finisky/node_modules/nunjucks/src/lib.js:36:11)

花了不少时间研究到底问题在哪,最终发现是VM的配置太低所致…… :-(

阅读全文 »

As the post number increases, Hexo generate posts slower and slower. Recently, it usually generates posts for several minutes and report the following error:

[ERROR][hexo-renderer-pandoc] pandoc exited with code null. at Object._prettifyError (/home/finisky/node_modules/nunjucks/src/lib.js:36:11)

I spent several hours to figure out the issue. Finally, I found the root cause is ... VM memory is too small ... :-(

阅读全文 »

对话系统中的个性化,或者说带有人设的AI对话机器人是个挺热的研究问题。随着虚拟人的爆火,如何能打造千人千面与用户沟通的AI,也就自然登上了舞台。今天就来看一篇ACL2022findings的文章:

[ACL2022findings] Long Time No See! Open-Domain Conversation with Long-Term Persona Memory

很多对话系统不能很好地利用用户对话的长程记忆,从而影响对话效果。百度的这篇文章提出了一个新任务 Long-term Memory Conversation (LeMon) 并发布了对应的数据集 DuLeMon。该系统可以在用户和AI对话的过程中动态提取有用的Persona Memory,并在之后的对话中同时考虑双方的Persona Memory进行更好的对话。

阅读全文 »

随着元宇宙概念的兴起,AI虚拟主播也跟着又火起来了,但AI虚拟主播真是个好生意吗?

AI虚拟主播大致可分为两类,一类是纯的AI虚拟主播,另一类是真人驱动的AI虚拟主播。后者要解决的是真人出镜的问题,本文主要讨论的是前者。

阅读全文 »

7.19日,收到了LeanCloud的邮件,大意如下:

8 月 1 日起,LeanCloud 国际版共享域名不再向中国大陆提供服务

为履行合规责任,降低平台风险,LeanCloud 国际版共享域名将于 2022 年 8 月 1 日起不再向中国大陆的最终用户提供服务,国际版共享域名仅服务于海外用户。

静态网站的状态存取是个痛点。好消息是本站使用Hexo NexT主题,天然集成了文章阅读量的功能,后端存储是LeanCloud,仅需配置app_idapp_key。而评论系统是另一个坑,一年前 切换到了Waline,一举攻克了这个难题,但当时Waline也依赖于LeanCloud。

这次LeanCloud国际版共享域名不向中国大陆提供服务改动,对Waline无影响,因为Waline的前端部署在Vercel海外节点。但如果网站面向大陆用户,文章阅读量统计会受影响。

因此,考虑将本站去LeanCloud依赖。方法很简单,将文章阅读量切换至Waline,同时Waline的后端存储改用MongoDB。去依赖需要你有一台服务器,自建MongoDB,或者直接使用 MongoDB Atlas的免费版

阅读全文 »

Static website such as Hexo/Hugo/Jekyll is very popular recent years. It is fast, easy to write, deploy and host. However, no free lunch: it is non-trivial to store dynamic information such as pageview counts and comments under the serverless architecture. This site uses Waline to implement article view count and comment system.

Accidently I found that we do not have a full site pageview counter. Waline has post-level counter instead of site-level one.

Just DIY: FiniCounter. Use Vercel serverless function as the web API framework, MongoDB as the storage. When a user comes to any page of the site, we invoke the count API through fetch API, increment the counter in the MongoDB, return the updated value and display in the page.

Initially I want to develop a tool for myself. After I finish it, I decide to make it as a public free service :-) . FiniCounter looks like this:

FiniCounter Demo

阅读全文 »

静态博客如Hexo/Hugo/Jekyll近些年很流行,markdown写作,一键生成部署,无需后端,可托管在各种网站平台,非常方便。但正因为无后端,动态信息的存取就成为了痛点:文章阅读数统计,评论系统等等。本站采用的是Hexo+Waline的方式实现文章阅读数统计与评论系统,最近也去掉了LeanCloud的依赖,所有数据使用MongoDB存储。

突然发现缺少一个全站访问量统计的功能,Waline目前不支持。大多数静态网站使用不蒜子,但看到由于使用人数众多,常常出现502错误和服务不稳定的情况。遂考虑自行开发这样的一个服务:FiniCounter。使用Vercel Serverless Function作为Web框架,MongoDB为后端存储。用户访问任意页面时,通过Fetch API调用Serverless Function,在MongoDB中计数加1并返回最新计数,在前端展示。

本想开发个小工具自己用,后来发现天然支持多用户,独乐乐不如众乐乐,大家一起用吧 :-)。效果展示:FiniCounter

FiniCounter Demo

阅读全文 »
0%