LaMDA: Language Models for Dialog Applications 简读
Google今年发布的聊天机器人LaMDA确实惊艳,之前一个Google员工与它对话后,声称它已经有了自我意识,还上了热搜。今天就来看看这机器人背后的原理是什么。
关键词: 大模型,高质量人工标注数据。
LaMDA: Language Models for Dialog Applications
论文的标题很大,有50多个作者,挺有意思。
Google今年发布的聊天机器人LaMDA确实惊艳,之前一个Google员工与它对话后,声称它已经有了自我意识,还上了热搜。今天就来看看这机器人背后的原理是什么。
关键词: 大模型,高质量人工标注数据。
LaMDA: Language Models for Dialog Applications
论文的标题很大,有50多个作者,挺有意思。
百度最近放出来的一篇文章,发布了一个高质量中文多轮chitchat数据集Diamonte:
Towards Boosting the Open-Domain Chatbot with Human Feedback
Diamonte数据集 下载地址
今天来看看这篇 ACL2022 的文章:
[ACL2022] Leveraging Similar Users for Personalized Language Modeling with Limited Data
解决的问题很容易理解,个性化语言模型在用户刚加入时缺少数据的冷启动问题:
Personalized language models are designed and trained to capture language patterns specific to individual users.
However, when a new user joins a platform and not enough text is available, it is harder to build effective personalized language models.
思路也比较直接,使用新用户的少量数据在已有用户中找到相似的用户,然后用相似用户的数据进行语言模型的训练,从而解决数据稀疏的问题。
实验论文,提出了三种不同的指标来进行用户相似度计算,实验证明 user embedding + interpolate model效果最好。
开卷有益是一个成语,最早出自《与子俨等疏》。 意思是读书总有益处。常用以勉励人们勤奋好学,多读书就会受益。
现在这年头,出书不要太容易,烂书也是出奇的多,开卷有益这词儿已经不适用了。就随口说说我最近翻过的几本烂书:《断舍离》,《组织的力量》,《底层逻辑》。
今天来看看这篇 ACL2022 的文章:
[ACL2022] Beyond Goldfish Memory: Long-Term Open-Domain Conversation
问题比较清楚,提升长期开放域对话的效果。题目用到一个梗:超越金鱼的7秒记忆,可以看出论文要解决的问题是跨越数小时甚至数天的会话。
注意: 这里是“长期” (long-term) 对话,不是 “长程”对话,即对话时间跨度比较长的对话。
本文同时发布了一个人与人进行长期对话的数据集
Multi-Session Chat (MSC)
,其中双方通过之前的会话互相了解对方的喜好,并在之后的对话中得以体现。
在长期对话中,使用retrieval-augmented的方式,结合对上下文对话的摘要,可以达到超越传统encoder-decoder架构的模型效果。
继跳一跳,2048,合成大西瓜等一众休闲小游戏爆火之后,羊了个羊最近频繁上热搜,甚至成了一个梗,它为什么爆红?有什么过人之处?今天就来扒一扒。
开放域问答常常需要借助外部知识生成更有信息量和准确的答复。当检索出相关知识后,如何将它们融入生成模型就是个问题。Fusion-in-Decoder (FiD) 这篇文章提出了一个简单有效的方案。
[EACL2021] [FiD] Leveraging Passage Retrieval with Generative Models for Open Domain Question Answering
随着博客文章的不断增加,Hexo生成这些文章需要的时间越来越长,最近居然能卡住几分钟,然后报错:
[ERROR][hexo-renderer-pandoc] pandoc exited with code null. at Object._prettifyError (/home/finisky/node_modules/nunjucks/src/lib.js:36:11)
花了不少时间研究到底问题在哪,最终发现是VM的配置太低所致…… :-(
As the post number increases, Hexo generate posts slower and slower. Recently, it usually generates posts for several minutes and report the following error:
[ERROR][hexo-renderer-pandoc] pandoc exited with code null. at Object._prettifyError (/home/finisky/node_modules/nunjucks/src/lib.js:36:11)
I spent several hours to figure out the issue. Finally, I found the root cause is ... VM memory is too small ... :-(
对话系统中的个性化,或者说带有人设的AI对话机器人是个挺热的研究问题。随着虚拟人的爆火,如何能打造千人千面与用户沟通的AI,也就自然登上了舞台。今天就来看一篇ACL2022findings的文章:
[ACL2022findings] Long Time No See! Open-Domain Conversation with Long-Term Persona Memory
很多对话系统不能很好地利用用户对话的长程记忆,从而影响对话效果。百度的这篇文章提出了一个新任务
Long-term Memory Conversation (LeMon)
并发布了对应的数据集
DuLeMon。该系统可以在用户和AI对话的过程中动态提取有用的Persona
Memory,并在之后的对话中同时考虑双方的Persona Memory进行更好的对话。