AI虚拟主播带货是不是个好生意?
随着元宇宙概念的兴起,AI虚拟主播也跟着又火起来了,但AI虚拟主播真是个好生意吗?
AI虚拟主播大致可分为两类,一类是纯的AI虚拟主播,另一类是真人驱动的AI虚拟主播。后者要解决的是真人出镜的问题,本文主要讨论的是前者。
随着元宇宙概念的兴起,AI虚拟主播也跟着又火起来了,但AI虚拟主播真是个好生意吗?
AI虚拟主播大致可分为两类,一类是纯的AI虚拟主播,另一类是真人驱动的AI虚拟主播。后者要解决的是真人出镜的问题,本文主要讨论的是前者。
7.19日,收到了LeanCloud的邮件,大意如下:
8 月 1 日起,LeanCloud 国际版共享域名不再向中国大陆提供服务
为履行合规责任,降低平台风险,LeanCloud 国际版共享域名将于 2022 年 8 月 1 日起不再向中国大陆的最终用户提供服务,国际版共享域名仅服务于海外用户。
静态博客如Hexo/Hugo/Jekyll近些年很流行,markdown写作,一键生成部署,无需后端,可托管在各种网站平台,非常方便。但正因为无后端,动态信息的存取就成为了痛点:文章阅读数统计,评论系统等等。本站采用的是Hexo+Waline的方式实现文章阅读数统计与评论系统,最近也去掉了LeanCloud的依赖,所有数据使用MongoDB存储。
抖音自2016年9月于今日头条孵化上线,定位为适合中国大陆年轻人的音乐短视频社区,应用为垂直音乐的UGC短视频。从数据来看,抖音主站在2021年第一季度的平均日活已过6亿,非常惊人,可见用户对于抖音产品的认可和依赖。同时,笔者周围有不少人的抖音都是装了又卸,卸了又装,感叹:刷抖音太费时间了,一不小心几个小时就过去了。那么,抖音是如何在互联网行业中突出重围,脱颖而出的呢?
关于"为什么微信能做支付,支付宝做不了社交"这个问题之前有过很多讨论,最近看到一个最直接直观的解释是,因为应用场景的包含关系不同。
(从前) Stylish 是个特别好的Chrome插件,可以自定义不同的css style,覆盖网站原有的风格和字体。我使用Stylish主要是将网页本身的英文字体改为Monaco,中文字体是雅黑。
使用
# 从私有代码库自动部署Hexo站到GitHub Pages
之后,真是幺娥子迭出:先是
文章的最后编辑时间不正确
,现在又发现有些页面的永久链接的日期会差一天,比如markdown写的是2020-07-13 00:50:05,生成的永久链接变成了2020/07/12。这个错误可能会导致搜索引擎找不到老页面,从而影响搜索展示。
作为面试官面试过数百候选人,深知招人难,招合适的人更难。同时,所谓“良禽择木而栖”,找一份自己满意的工作也并非易事。社招由于岗位职责的不同,与校招的标准有较大区别,下回分解。今天我们从面试官的角度来聊聊,对于技术研发岗,什么是一个优秀的校招候选人。
文本匹配与检索是NLP中的经典问题,主要研究两个文本的主义相似度,通常用在检索系统的召回阶段。传统的召回方案如tf-idf和BM25具有速度优势,但在语义匹配方面有所欠缺。随着预训练模型的发展,使用深度模型进行文本检索变得必要与可行。
在 # 从私有代码库自动部署Hexo站到GitHub Pages , 我们用GitHub Action实现了自动化部署Hexo站。但还存在一个问题,在每次部署后所有文章的修改时间都变成了当前时间,而非实际的修改时间。这样的问题在于所有历史文章在每次部署之后都会发生变化,会让搜索引擎误认为这个网站时常改动。
之前我们谈到 Adapters 与 Prompting 都是轻量级的训练方法,所谓 lightweight-finetuning。今天来看一下另一种轻量级训练大语言模型的方法:
之前我们谈到如何 从私有代码库自动部署Hugo站到GitHub Pages 。以为将之前的workflow yaml修改为Hexo的版本非常容易,亲自试了下发现打脸了。原因在于Hexo的依赖很多,因此环境配置比Hugo就复杂很多,同时还兼有各种包和库的兼容性问题。相比之下,Hugo就显得非常干净,使用GitHub Action容易不少。
NLP adapters主要想解决不同任务需要finetune整个模型的痛点,与Prompting一样,是一种轻量级的训练方法,也是Transfer Learning的应用。按出现时间来看,finetune早于adapters,adapters早于prompting。今天来重看这篇Adapters的文章,可以更好地理解lightweight finetune的发展过程。
Hugo是个极好的静态网站生成器。一个常见的情况是原始的网站源码放在私有代码库中,但希望自动化构建和部署的功能。假设私有代码库托管在github上,希望能自动化部署到GitHub Pages,这个功能可以通过github actions轻松搞定。
最初对语言模型的理解源于n-gram语言模型,但后来出现了RNNLM等一众神经网络语言模型,就有了这个疑问:神经网络为什么可以表示语言模型?
首先,语言模型本质上是 概率分布 :
# Scaling Laws for Neural Language Models
一篇实验Paper,调研了神经网络语言模型交叉熵损失变化满足power-law定律,挺有意思的文章。Transformer之后有许多探索不同模型结构的文章,并在一些任务上取得了新的SOTA,却鲜有人考虑影响模型性能的主要因素是什么。
LeetCode Top K Frequent Words 中会用到priority_queue,同时需要定义priority_queue的排序算法。
在迁移博客之后,就切换了图床,使用github作免费的图床。但最近发现它不太稳定,常常打不开。研究发现可以用jsdelivr作github的CDN加速,只需替换下图片地址即可。这才是github图床正确的打开方式 :-)
之前我们谈到 # MongoDB事务重试实现 . 如果在事务中使用了BulkWrite(),那么这个新的事务API可能会无限重试从而导致服务器CPU使用率100% (MongoDB Server v4.4.6-ent, MongoDB Driver v2.12.2)。