12/03/2023 - Gopher beyond El[i]phants

最近 ChatGPT 着实火了一把，据说 GTP4 也即将发布。现在Large Language Model（LLM ）也受到了类似图像生成的 Stable Diffusion 那种高光时刻。

在之前我一直有一个错误的观念，认为谁掌握着计算能力，谁才能得到最好的AI模型。直到 Facebook 2023 年二月 24 号发布了论文“LLaMA: Open and Efficient Foundation Language Models”。粗略阅读之后，我才知道原来在一个限定的预算下，大参数模型并不如小参数模型用更多的数据进行训练。

当前，许多 AI 模型都依赖 CUDA，比如 nanoGPT，这也就意味着必须有 NVIDIA 的 GPU来训练和运行。有这样的硬件限制，对于我这种只是想初步了解一下 LLMs 的一些基本概念的业余爱好者变成了一个比较高的门槛。

所幸的是 Georgi Gerganov 用 C/C++ 基于 LLaMA 实现了一个跑在 CPU 上的移植版本 llama.cpp。llama.cpp 甚至将 Apple silicon 作为一等公民对待，这也意味着苹果 silicon 可以顺利运行这个语言模型。

(more…)

Day: March 12, 2023

在 Ubuntu 2204 上运行 LLaMA.cpp