羊了个羊为什么这么火?
继跳一跳,2048,合成大西瓜等一众休闲小游戏爆火之后,羊了个羊最近频繁上热搜,甚至成了一个梗,它为什么爆红?有什么过人之处?今天就来扒一扒。
继跳一跳,2048,合成大西瓜等一众休闲小游戏爆火之后,羊了个羊最近频繁上热搜,甚至成了一个梗,它为什么爆红?有什么过人之处?今天就来扒一扒。
开放域问答常常需要借助外部知识生成更有信息量和准确的答复。当检索出相关知识后,如何将它们融入生成模型就是个问题。Fusion-in-Decoder (FiD) 这篇文章提出了一个简单有效的方案。
[EACL2021] [FiD] Leveraging Passage Retrieval with Generative Models for Open Domain Question Answering
随着博客文章的不断增加,Hexo生成这些文章需要的时间越来越长,最近居然能卡住几分钟,然后报错:
[ERROR][hexo-renderer-pandoc] pandoc exited with code null. at Object._prettifyError (/home/finisky/node_modules/nunjucks/src/lib.js:36:11)
花了不少时间研究到底问题在哪,最终发现是VM的配置太低所致…… :-(
对话系统中的个性化,或者说带有人设的AI对话机器人是个挺热的研究问题。随着虚拟人的爆火,如何能打造千人千面与用户沟通的AI,也就自然登上了舞台。今天就来看一篇ACL2022findings的文章:
[ACL2022findings] Long Time No See! Open-Domain Conversation with Long-Term Persona Memory
很多对话系统不能很好地利用用户对话的长程记忆,从而影响对话效果。百度的这篇文章提出了一个新任务 Long-term Memory Conversation (LeMon) 并发布了对应的数据集 DuLeMon。该系统可以在用户和AI对话的过程中动态提取有用的Persona Memory,并在之后的对话中同时考虑双方的Persona Memory进行更好的对话。
随着元宇宙概念的兴起,AI虚拟主播也跟着又火起来了,但AI虚拟主播真是个好生意吗?
AI虚拟主播大致可分为两类,一类是纯的AI虚拟主播,另一类是真人驱动的AI虚拟主播。后者要解决的是真人出镜的问题,本文主要讨论的是前者。
7.19日,收到了LeanCloud的邮件,大意如下:
8 月 1 日起,LeanCloud 国际版共享域名不再向中国大陆提供服务
为履行合规责任,降低平台风险,LeanCloud 国际版共享域名将于 2022 年 8 月 1 日起不再向中国大陆的最终用户提供服务,国际版共享域名仅服务于海外用户。
静态博客如Hexo/Hugo/Jekyll近些年很流行,markdown写作,一键生成部署,无需后端,可托管在各种网站平台,非常方便。但正因为无后端,动态信息的存取就成为了痛点:文章阅读数统计,评论系统等等。本站采用的是Hexo+Waline的方式实现文章阅读数统计与评论系统,最近也去掉了LeanCloud的依赖,所有数据使用MongoDB存储。
抖音自2016年9月于今日头条孵化上线,定位为适合中国大陆年轻人的音乐短视频社区,应用为垂直音乐的UGC短视频。从数据来看,抖音主站在2021年第一季度的平均日活已过6亿,非常惊人,可见用户对于抖音产品的认可和依赖。同时,笔者周围有不少人的抖音都是装了又卸,卸了又装,感叹:刷抖音太费时间了,一不小心几个小时就过去了。那么,抖音是如何在互联网行业中突出重围,脱颖而出的呢?
关于"为什么微信能做支付,支付宝做不了社交"这个问题之前有过很多讨论,最近看到一个最直接直观的解释是,因为应用场景的包含关系不同。
(从前) Stylish 是个特别好的Chrome插件,可以自定义不同的css style,覆盖网站原有的风格和字体。我使用Stylish主要是将网页本身的英文字体改为Monaco,中文字体是雅黑。
使用
# 从私有代码库自动部署Hexo站到GitHub Pages
之后,真是幺娥子迭出:先是
文章的最后编辑时间不正确
,现在又发现有些页面的永久链接的日期会差一天,比如markdown写的是2020-07-13 00:50:05,生成的永久链接变成了2020/07/12。这个错误可能会导致搜索引擎找不到老页面,从而影响搜索展示。
作为面试官面试过数百候选人,深知招人难,招合适的人更难。同时,所谓“良禽择木而栖”,找一份自己满意的工作也并非易事。社招由于岗位职责的不同,与校招的标准有较大区别,下回分解。今天我们从面试官的角度来聊聊,对于技术研发岗,什么是一个优秀的校招候选人。
文本匹配与检索是NLP中的经典问题,主要研究两个文本的主义相似度,通常用在检索系统的召回阶段。传统的召回方案如tf-idf和BM25具有速度优势,但在语义匹配方面有所欠缺。随着预训练模型的发展,使用深度模型进行文本检索变得必要与可行。
在 # 从私有代码库自动部署Hexo站到GitHub Pages , 我们用GitHub Action实现了自动化部署Hexo站。但还存在一个问题,在每次部署后所有文章的修改时间都变成了当前时间,而非实际的修改时间。这样的问题在于所有历史文章在每次部署之后都会发生变化,会让搜索引擎误认为这个网站时常改动。
之前我们谈到 Adapters 与 Prompting 都是轻量级的训练方法,所谓 lightweight-finetuning。今天来看一下另一种轻量级训练大语言模型的方法:
之前我们谈到如何 从私有代码库自动部署Hugo站到GitHub Pages 。以为将之前的workflow yaml修改为Hexo的版本非常容易,亲自试了下发现打脸了。原因在于Hexo的依赖很多,因此环境配置比Hugo就复杂很多,同时还兼有各种包和库的兼容性问题。相比之下,Hugo就显得非常干净,使用GitHub Action容易不少。
NLP adapters主要想解决不同任务需要finetune整个模型的痛点,与Prompting一样,是一种轻量级的训练方法,也是Transfer Learning的应用。按出现时间来看,finetune早于adapters,adapters早于prompting。今天来重看这篇Adapters的文章,可以更好地理解lightweight finetune的发展过程。
Hugo是个极好的静态网站生成器。一个常见的情况是原始的网站源码放在私有代码库中,但希望自动化构建和部署的功能。假设私有代码库托管在github上,希望能自动化部署到GitHub Pages,这个功能可以通过github actions轻松搞定。
最初对语言模型的理解源于n-gram语言模型,但后来出现了RNNLM等一众神经网络语言模型,就有了这个疑问:神经网络为什么可以表示语言模型?
首先,语言模型本质上是 概率分布 :
# Scaling Laws for Neural Language Models
一篇实验Paper,调研了神经网络语言模型交叉熵损失变化满足power-law定律,挺有意思的文章。Transformer之后有许多探索不同模型结构的文章,并在一些任务上取得了新的SOTA,却鲜有人考虑影响模型性能的主要因素是什么。