Finisky Garden

力洛克T41自行洗油保养实录

发表于 2023-03-05 更新于 2023-08-23 分类于 Life 评论：阅读次数：

戴了十几年的力洛克，一年前开始走时不准，最近每天能慢上一分钟，手动上弦似乎也有些问题，总是上不满弦，怀疑与之前疫情在家总手动上弦有关系 (最初怀疑发条断了)。

距上次保养已经5年有余，天梭官方授权的店保养一次 (所谓完全服务) 约一千块，而买块新的ETA-2824-2机芯也就差不多这个价，所以再去保养显得非常不划算。老爷子年轻时玩表修表，有此家学，再加上网上有许多机芯拆解洗油点油视频，看起来也不甚困难，跃跃欲试，决定自行保养维护。

前后历时一个月才保养完毕，趟坑无数。现在看来，动手时显然低估了保养洗油的难度，加之中间遇到的诸多难题，本想从玩表的过程获取些操作的成就感，不想却收获了诸多挫败感。修完后才感叹，授权店收一千块算是良心价了 :-) 。好在最终问题完美解决，记录下保养过程。

阅读全文 »

Chain-of-Thought Prompting 简读

发表于 2023-03-01 分类于 Machine Learning 评论：阅读次数：

语言模型越来越大，但更大的模型并没有显示出更强的计算和推理能力。去年Google提出了Chain-of-Thought (CoT) 的方案，通过chain-of-thought提示，让模型逐步推断，使大模型的推理能力显著提升。本文来看一下chain-of-thought的原理。

Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

Language Models Perform Reasoning via Chain of Thought

阅读全文 »

大模型训练不稳定问题及解决方案

发表于 2023-02-15 分类于 Machine Learning 评论：阅读次数：

大规模语言模型的春风已经吹遍大地，大家都惊叹于大模型出色的对话能力，但是在训练大模型时遇到的训练不稳定问题(training instabilities)，可能关注的人并不太多。所谓量变引起质变，模型每大一个量级，就可能会出现一些意想不到的问题，比如莫名其妙的训练崩溃。当然，也有好的方面，在模型有一定规模后，是否有可能表现出一些弱智能，也很难说。

言归正传，今天聊聊在训练10B以上模型时遇到的训练不稳定现象，问题原因及当前的解法。

阅读全文 »

Google拟发布ChatGPT的竞争对手Bard

发表于 2023-02-08 分类于 News 评论：阅读次数：

ChatGPT的大火让Google也坐不住了，许多人认为这一波Google已落后一个身位。坊间甚至传言创始人谢尔盖・布林都已“躬身入局”，亲自写代码了。上面的说法可以当八卦看来一乐，不过昨天微软官宣Bing和Edge浏览器要集成ChatGPT时，Google也不甘示弱，表示也要上线大模型Bard (这个名字倒也颇具浪漫主义气质：吟游诗人)。

阅读全文 »

大模型分布式训练的并行策略

发表于 2023-02-02 更新于 2023-02-08 分类于 Machine Learning 评论：阅读次数：

随着神经网络模型规模的不断增大，对硬件的显存和算力提出了新的要求。首先模型参数过多，导致单机内存放不下，即使能放得下，算力也跟不上。同时，硬件算力的增长远远比不上模型增长的速度，单机训练变得不再可行，需要并行化分布式训练加速。比如Megatron-Turing NLG有 530B 的参数，训练需要超过 10T 的内存来存储权重、梯度和状态。

同时，模型是一个有机的整体，简单增加机器数量并不能提升算力，需要有并行策略和通信设计，才能实现高效的并行训练。本文简要介绍目前主流的几种并行策略：数据并行，张量并行，流水线并行和混合并行。

# Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, A Large-Scale Generative Language Model

阅读全文 »

ChatGPT推出了收费版，每月20刀

发表于 2023-02-02 更新于 2023-02-08 分类于 News 评论：阅读次数：

近来被人们玩坏的ChatGPT推出了收费订阅ChatGPT Plus，每月20刀，提供更好的可用性，更快的回复时间，和提前试用新功能的权益。

这个订阅目前仅对美国地区开放，先从之前登记的waitlist上邀请试用，后续会开放更多国家和地区。

好消息是免费版继续可用，推出收费版后可以更好地服务于更多的免费用户。

阅读全文 »

Recently I upgrade NexT theme to v8.14.1. The related post plugin hexo-related-popular-posts had been replaced by hexo-related-posts, which generates related posts by tf-idf algorithm. However, the compute cost is a little bit heavy if you have many posts. A good trade-off is enable this feature only for production environment. The plugin hexo-related-posts already takes this into account and use enable_env_name to disable its execution. Unfortunately, the document has typo so I takes some time to fix it.

So how to set environment variable in Hexo?

Short Answer：$ hexo <command> --<env_key> env_value。

The following secitons will illustrate how to enable related post on production.

阅读全文 »

Hexo环境变量区分生产环境

发表于 2023-01-28 分类于 Hexo 评论：阅读次数：

最近升级NexT主题到最新版v8.14.1，相关文章功能从v8.10开始由hexo-related-popular-posts替换成了hexo-related-posts，后者是用tf-idf算法对文章全文进行相似度计算而得相关文章，比hexo-related-popular-posts要精准和先进一些，不过副作用是计算量变大，在文章数较多的情况下运行会比较慢，这样在写完文章后用hexo s进行本地调试效率就变低了，每次文章修改都要重新计算一遍tf-idf。好在 hexo-related-posts 考虑到了此问题，可以通过设置enable_env_name变量，只在特定环境(如生产环境)中才开启此功能。不过文档略有些问题，费了一番周折才设置环境变量成功。

短答案：$ hexo <command> --<env_key> env_value。

长答案：本文介绍了如何使用环境变量仅在生产环境开启相关文章功能。

阅读全文 »

ETA 2824-2 机芯保养手册

发表于 2023-01-26 更新于 2023-01-30 分类于 Life 评论：阅读次数：

ETA 2824-2 是经典的瑞士机芯之一，稳定、准确度高。网上也有一个很好的拆解点油视频：

# ETA2824机芯的保养与拆解组装过程

不过关于2824机芯的手册百度很难搜到免费下载，在此与表友共享。

阅读全文 »

Training Compute-Optimal Large Language Models 简读

发表于 2023-01-24 分类于 Machine Learning 评论：阅读次数：

DeepMind去年在 NeurIPS 2022 发表了一篇如何在给定计算资源条件下，用多少tokens训练最优大小的 Large Language Models (LLM)。之前的许多工作都仅专注于扩大模型规模，而并不增加训练数据规模，导致这些模型显著地训练不到位 (undertrained)。DeepMind训练用不同规模的数据 (从5B到500B tokens) 训练超过400个不同大小的模型 (从70M到超过16B)，发现 模型和训练数据规模需要同比增大。根据这个假设，使用与 Gopher (280B) 同样的计算量且4倍的数据，训练了70B的最优模型 Chinchilla。它在许多下游任务上的性能显著超过了 Gopher (280B), GPT-3 (175B) Jurassic-1 (178B) 和 Megatron-Turing NLG (530B)。

[NeurIPS 2022] Training Compute-Optimal Large Language Models Training Compute-Optimal Large Language Models

本文的 Chinchilla 也是后续对话系统 Sparrow 的基模型。

阅读全文 »