Towards Boosting the Open-Domain Chatbot with Human Feedback 简读
百度最近放出来的一篇文章,发布了一个高质量中文多轮chitchat数据集Diamonte:
Towards Boosting the Open-Domain Chatbot with Human Feedback
Diamonte数据集 下载地址
百度最近放出来的一篇文章,发布了一个高质量中文多轮chitchat数据集Diamonte:
Towards Boosting the Open-Domain Chatbot with Human Feedback
Diamonte数据集 下载地址
今天来看看这篇 ACL2022 的文章:
[ACL2022] Leveraging Similar Users for Personalized Language Modeling with Limited Data
解决的问题很容易理解,个性化语言模型在用户刚加入时缺少数据的冷启动问题:
Personalized language models are designed and trained to capture language patterns specific to individual users.
However, when a new user joins a platform and not enough text is available, it is harder to build effective personalized language models.
思路也比较直接,使用新用户的少量数据在已有用户中找到相似的用户,然后用相似用户的数据进行语言模型的训练,从而解决数据稀疏的问题。
实验论文,提出了三种不同的指标来进行用户相似度计算,实验证明 user embedding + interpolate model效果最好。
开卷有益是一个成语,最早出自《与子俨等疏》。 意思是读书总有益处。常用以勉励人们勤奋好学,多读书就会受益。
现在这年头,出书不要太容易,烂书也是出奇的多,开卷有益这词儿已经不适用了。就随口说说我最近翻过的几本烂书:《断舍离》,《组织的力量》,《底层逻辑》。
今天来看看这篇 ACL2022 的文章:
[ACL2022] Beyond Goldfish Memory: Long-Term Open-Domain Conversation
问题比较清楚,提升长期开放域对话的效果。题目用到一个梗:超越金鱼的7秒记忆,可以看出论文要解决的问题是跨越数小时甚至数天的会话。
注意: 这里是“长期” (long-term) 对话,不是 “长程”对话,即对话时间跨度比较长的对话。
本文同时发布了一个人与人进行长期对话的数据集 Multi-Session Chat (MSC),其中双方通过之前的会话互相了解对方的喜好,并在之后的对话中得以体现。
在长期对话中,使用retrieval-augmented的方式,结合对上下文对话的摘要,可以达到超越传统encoder-decoder架构的模型效果。
继跳一跳,2048,合成大西瓜等一众休闲小游戏爆火之后,羊了个羊最近频繁上热搜,甚至成了一个梗,它为什么爆红?有什么过人之处?今天就来扒一扒。
开放域问答常常需要借助外部知识生成更有信息量和准确的答复。当检索出相关知识后,如何将它们融入生成模型就是个问题。Fusion-in-Decoder (FiD) 这篇文章提出了一个简单有效的方案。
[EACL2021] [FiD] Leveraging Passage Retrieval with Generative Models for Open Domain Question Answering
随着博客文章的不断增加,Hexo生成这些文章需要的时间越来越长,最近居然能卡住几分钟,然后报错:
[ERROR][hexo-renderer-pandoc] pandoc exited with code null. at Object._prettifyError (/home/finisky/node_modules/nunjucks/src/lib.js:36:11)
花了不少时间研究到底问题在哪,最终发现是VM的配置太低所致…… :-(
对话系统中的个性化,或者说带有人设的AI对话机器人是个挺热的研究问题。随着虚拟人的爆火,如何能打造千人千面与用户沟通的AI,也就自然登上了舞台。今天就来看一篇ACL2022findings的文章:
[ACL2022findings] Long Time No See! Open-Domain Conversation with Long-Term Persona Memory
很多对话系统不能很好地利用用户对话的长程记忆,从而影响对话效果。百度的这篇文章提出了一个新任务 Long-term Memory Conversation (LeMon) 并发布了对应的数据集 DuLeMon。该系统可以在用户和AI对话的过程中动态提取有用的Persona Memory,并在之后的对话中同时考虑双方的Persona Memory进行更好的对话。
随着元宇宙概念的兴起,AI虚拟主播也跟着又火起来了,但AI虚拟主播真是个好生意吗?
AI虚拟主播大致可分为两类,一类是纯的AI虚拟主播,另一类是真人驱动的AI虚拟主播。后者要解决的是真人出镜的问题,本文主要讨论的是前者。
7.19日,收到了LeanCloud的邮件,大意如下:
8 月 1 日起,LeanCloud 国际版共享域名不再向中国大陆提供服务
为履行合规责任,降低平台风险,LeanCloud 国际版共享域名将于 2022 年 8 月 1 日起不再向中国大陆的最终用户提供服务,国际版共享域名仅服务于海外用户。
静态博客如Hexo/Hugo/Jekyll近些年很流行,markdown写作,一键生成部署,无需后端,可托管在各种网站平台,非常方便。但正因为无后端,动态信息的存取就成为了痛点:文章阅读数统计,评论系统等等。本站采用的是Hexo+Waline的方式实现文章阅读数统计与评论系统,最近也去掉了LeanCloud的依赖,所有数据使用MongoDB存储。
抖音自2016年9月于今日头条孵化上线,定位为适合中国大陆年轻人的音乐短视频社区,应用为垂直音乐的UGC短视频。从数据来看,抖音主站在2021年第一季度的平均日活已过6亿,非常惊人,可见用户对于抖音产品的认可和依赖。同时,笔者周围有不少人的抖音都是装了又卸,卸了又装,感叹:刷抖音太费时间了,一不小心几个小时就过去了。那么,抖音是如何在互联网行业中突出重围,脱颖而出的呢?
关于"为什么微信能做支付,支付宝做不了社交"这个问题之前有过很多讨论,最近看到一个最直接直观的解释是,因为应用场景的包含关系不同。
(从前) Stylish 是个特别好的Chrome插件,可以自定义不同的css style,覆盖网站原有的风格和字体。我使用Stylish主要是将网页本身的英文字体改为Monaco,中文字体是雅黑。
使用
# 从私有代码库自动部署Hexo站到GitHub Pages
之后,真是幺娥子迭出:先是
文章的最后编辑时间不正确
,现在又发现有些页面的永久链接的日期会差一天,比如markdown写的是2020-07-13 00:50:05,生成的永久链接变成了2020/07/12。这个错误可能会导致搜索引擎找不到老页面,从而影响搜索展示。
作为面试官面试过数百候选人,深知招人难,招合适的人更难。同时,所谓“良禽择木而栖”,找一份自己满意的工作也并非易事。社招由于岗位职责的不同,与校招的标准有较大区别,下回分解。今天我们从面试官的角度来聊聊,对于技术研发岗,什么是一个优秀的校招候选人。
文本匹配与检索是NLP中的经典问题,主要研究两个文本的主义相似度,通常用在检索系统的召回阶段。传统的召回方案如tf-idf和BM25具有速度优势,但在语义匹配方面有所欠缺。随着预训练模型的发展,使用深度模型进行文本检索变得必要与可行。
在 # 从私有代码库自动部署Hexo站到GitHub Pages , 我们用GitHub Action实现了自动化部署Hexo站。但还存在一个问题,在每次部署后所有文章的修改时间都变成了当前时间,而非实际的修改时间。这样的问题在于所有历史文章在每次部署之后都会发生变化,会让搜索引擎误认为这个网站时常改动。
之前我们谈到 Adapters 与 Prompting 都是轻量级的训练方法,所谓 lightweight-finetuning。今天来看一下另一种轻量级训练大语言模型的方法:
之前我们谈到如何 从私有代码库自动部署Hugo站到GitHub Pages 。以为将之前的workflow yaml修改为Hexo的版本非常容易,亲自试了下发现打脸了。原因在于Hexo的依赖很多,因此环境配置比Hugo就复杂很多,同时还兼有各种包和库的兼容性问题。相比之下,Hugo就显得非常干净,使用GitHub Action容易不少。