0%

在一篇老文 # 迁移Hexo博客到GitHub Pages 中提到:

GitHub Pages可能是个单行线,只能迁出,不好再迁出了。简单研究了一下文档,它不允许用户修改Server配置,所以看起来无法完成301重定向。

但在迁移博客时,301重定向必不可少,它是保证站点迁移不损失搜索排名的关键所在。具体来说,在迁移到新站点之后,需要 手动修改 Google Search Console 的配置 :

Do you lose credit for links when you redirect to new URLs?
No, 301 or 302 redirects do not cause a loss in PageRank

所以如何才是无损排名迁移 GitHub Pages 的正确方式?

今天来聊聊老板喜欢什么样的下属。这个问题其实因老板而异,工作这些年见过各种风格的老板,但不论什么风格,靠谱和有能力的下属都是重点培养对象。我们先从老板的角度,简单分析下作为下属可以从哪些方面提升这些能力。

Knowledge Grounded Conversation (KGC),就是基于知识的对话生成,与不使用知识的对话生成相比,生成的回复更有信息量,可更好地与用户互动。

本文不是KGC的综述,所谓漫谈,则是比较随性地聊聊这个方向的代表工作,顺带简单梳理其发展脉络。

之前 WeLM的文章 探讨了微信大语言模型的原理。同时,WeLM开放了API:https://welm.weixin.qq.com/docs/api/ ,有幸申请到了API Token,将其接入了微信公众号Finisky Garden,聊天机器人取名小菲,大家可以来试试~

一个看着非常简单的App:手机敲木鱼,居然能在App Store上评分4.8,十几万的评论,还有App内购买赚钱,刷新认知不?

这年头多少人绞尽脑汁做App都无人理睬,反倒被这么个极简的玩意儿割了韭菜,原因还是它抓住了用户的痛点。

Google今年发布的聊天机器人LaMDA确实惊艳,之前一个Google员工与它对话后,声称它已经有了自我意识,还上了热搜。今天就来看看这机器人背后的原理是什么。

关键词: 大模型,高质量人工标注数据。

LaMDA: Language Models for Dialog Applications

论文的标题很大,有50多个作者,挺有意思。

今天来看看这篇 ACL2022 的文章:

[ACL2022] Leveraging Similar Users for Personalized Language Modeling with Limited Data

解决的问题很容易理解,个性化语言模型在用户刚加入时缺少数据的冷启动问题:

Personalized language models are designed and trained to capture language patterns specific to individual users.

However, when a new user joins a platform and not enough text is available, it is harder to build effective personalized language models.

思路也比较直接,使用新用户的少量数据在已有用户中找到相似的用户,然后用相似用户的数据进行语言模型的训练,从而解决数据稀疏的问题。

实验论文,提出了三种不同的指标来进行用户相似度计算,实验证明 user embedding + interpolate model效果最好。

开卷有益是一个成语,最早出自《与子俨等疏》。 意思是读书总有益处。常用以勉励人们勤奋好学,多读书就会受益。

现在这年头,出书不要太容易,烂书也是出奇的多,开卷有益这词儿已经不适用了。就随口说说我最近翻过的几本烂书:《断舍离》,《组织的力量》,《底层逻辑》。

今天来看看这篇 ACL2022 的文章:

[ACL2022] Beyond Goldfish Memory: Long-Term Open-Domain Conversation

问题比较清楚,提升长期开放域对话的效果。题目用到一个梗:超越金鱼的7秒记忆,可以看出论文要解决的问题是跨越数小时甚至数天的会话。

注意: 这里是“长期” (long-term) 对话,不是 “长程”对话,即对话时间跨度比较长的对话。

本文同时发布了一个人与人进行长期对话的数据集 Multi-Session Chat (MSC),其中双方通过之前的会话互相了解对方的喜好,并在之后的对话中得以体现。

在长期对话中,使用retrieval-augmented的方式,结合对上下文对话的摘要,可以达到超越传统encoder-decoder架构的模型效果。

继跳一跳,2048,合成大西瓜等一众休闲小游戏爆火之后,羊了个羊最近频繁上热搜,甚至成了一个梗,它为什么爆红?有什么过人之处?今天就来扒一扒。

开放域问答常常需要借助外部知识生成更有信息量和准确的答复。当检索出相关知识后,如何将它们融入生成模型就是个问题。Fusion-in-Decoder (FiD) 这篇文章提出了一个简单有效的方案。

[EACL2021] [FiD] Leveraging Passage Retrieval with Generative Models for Open Domain Question Answering

随着博客文章的不断增加,Hexo生成这些文章需要的时间越来越长,最近居然能卡住几分钟,然后报错:

[ERROR][hexo-renderer-pandoc] pandoc exited with code null. at Object._prettifyError (/home/finisky/node_modules/nunjucks/src/lib.js:36:11)

花了不少时间研究到底问题在哪,最终发现是VM的配置太低所致…… :-(

对话系统中的个性化,或者说带有人设的AI对话机器人是个挺热的研究问题。随着虚拟人的爆火,如何能打造千人千面与用户沟通的AI,也就自然登上了舞台。今天就来看一篇ACL2022findings的文章:

[ACL2022findings] Long Time No See! Open-Domain Conversation with Long-Term Persona Memory

很多对话系统不能很好地利用用户对话的长程记忆,从而影响对话效果。百度的这篇文章提出了一个新任务 Long-term Memory Conversation (LeMon) 并发布了对应的数据集 DuLeMon。该系统可以在用户和AI对话的过程中动态提取有用的Persona Memory,并在之后的对话中同时考虑双方的Persona Memory进行更好的对话。

随着元宇宙概念的兴起,AI虚拟主播也跟着又火起来了,但AI虚拟主播真是个好生意吗?

AI虚拟主播大致可分为两类,一类是纯的AI虚拟主播,另一类是真人驱动的AI虚拟主播。后者要解决的是真人出镜的问题,本文主要讨论的是前者。

7.19日,收到了LeanCloud的邮件,大意如下:

8 月 1 日起,LeanCloud 国际版共享域名不再向中国大陆提供服务

为履行合规责任,降低平台风险,LeanCloud 国际版共享域名将于 2022 年 8 月 1 日起不再向中国大陆的最终用户提供服务,国际版共享域名仅服务于海外用户。

静态博客如Hexo/Hugo/Jekyll近些年很流行,markdown写作,一键生成部署,无需后端,可托管在各种网站平台,非常方便。但正因为无后端,动态信息的存取就成为了痛点:文章阅读数统计,评论系统等等。本站采用的是Hexo+Waline的方式实现文章阅读数统计与评论系统,最近也去掉了LeanCloud的依赖,所有数据使用MongoDB存储。

抖音自2016年9月于今日头条孵化上线,定位为适合中国大陆年轻人的音乐短视频社区,应用为垂直音乐的UGC短视频。从数据来看,抖音主站在2021年第一季度的平均日活已过6亿,非常惊人,可见用户对于抖音产品的认可和依赖。同时,笔者周围有不少人的抖音都是装了又卸,卸了又装,感叹:刷抖音太费时间了,一不小心几个小时就过去了。那么,抖音是如何在互联网行业中突出重围,脱颖而出的呢?