大型语言模型基础知识的可视化指南

直观分解复杂人工智能概念的工具和文章汇总

在这里插入图片描述

如今，LLM（大型语言模型的缩写）在全世界都很流行。没有一天不在宣布新的语言模型，这加剧了人们对错过人工智能领域的恐惧。然而，许多人仍在为 LLM 的基本概念而苦苦挣扎，这使他们难以跟上时代的进步。本文的目标读者是那些希望深入了解此类人工智能模型的内部运作，从而扎实掌握相关知识的人。有鉴于此，我将介绍一些工具和文章，它们可以帮助巩固概念并分解 LLM 的概念，使其易于理解。

杰伊是最早用强大的可视化功能撰写技术文章的先驱之一。只要浏览一下这个博客网站，你就会明白我想表达的意思。多年来，他激励了许多作者效仿，教程的理念也从简单的文字和代码转变为身临其境的可视化。言归正传，回到图文并茂的 Transformer。变换器架构是所有带变换器的语言模型（LLM）的基本构件。因此，了解其基本原理至关重要，而这正是杰伊所做的出色工作。该博客涵盖了以下重要概念：

Transformer的高级视角
探索Transformer的编码和解码组件
Self-Attention自注意力机制
自注意力机制的矩阵计算
Multi-Headed Attention多注意力头的概念
位置编码
Transformer结构中的余量
解码器的最终线性和Softmax层
模型训练中的损失函数

Link: https://jalammar.github.io/illustrated-transformer/

他还制作了一个 "讲述Transformer "的视频，以更温和的方式来探讨这个话题。阅读完这篇博文后，Attention Is All You Need 一文和Transformer blog post 官方博文将是很好的补充。

2.图解GPT-2 《The Illustrated GPT-2 by Jay Alammar》

杰伊-阿拉玛（Jay Alammar）的另一篇精彩文章–《图解GPT-2》。这是对图解Transformer 博客的补充，包含更多可视化元素来解释Transformer 的内部工作原理，以及自原始论文发表以来Transformer 是如何演变的。此外，它还有一个专门的部分介绍Transformer 在语言建模之外的应用。
相关链接：🔗: https://jalammar.github.io/illustrated-gpt2/

3. 大语言模型可视化《LLM Visualization by Brendan Bycroft》

LLM 可视化项目提供了支持 OpenAI 的 ChatGPT 的 LLM 算法演练。这是一个探索算法的绝佳资源，可以深入到运行单个标记推理所需的每一个步骤，看到整个过程的运行情况。

该项目的特色是一个网页，其中包含一个小型 LLM 的可视化效果，类似于 ChatGPT，但具有令人惊叹的 3D 效果。该工具提供了单标记推理的逐步指导，并具有互动元素，可让用户亲身体验。截至目前，以下架构的可视化工具已经可用：

GPT-2(small)
Nano GPT
GPT-2(XL)
GPT-3

相关链接：: https://bbycroft.net/llm

4. 生成式AI因transformer而存在《Generative AI exists because of the transformer — Financial Times》

《金融时报》的视觉研发团队和 Madhumita Murgia 做得很好，他们运用视觉效果阐释了 LLM 的功能，特别强调了自我注意机制和 Transformer 架构。
相关链接：https://ig.ft.com/generative-ai/

5. OpenAI 的Token工具《Tokenizer tool by OpenAI》

大型语言模型使用标记（数字序列）处理文本。标记符转换器可将文本转换为标记符。OpenAI 的标记化工具提供了一种有用的方法来测试特定字符串，并查看它们是如何转化为标记的。您可以使用该工具了解语言模型如何对一段文本进行标记化，以及这段文本中的标记总数。

Link: https://platform.openai.com/tokenizer

6. 理解GPT的分词器《Understanding GPT tokenizers by Simon Wilson》

虽然我们已经提到过 OpenAI 提供了一个令牌生成器（Tokenizer）工具来探索令牌是如何工作的，但西蒙-威尔逊（Simon Wilson）自己创建了一个令牌生成器工具，这就更有趣了。该工具可作为 Observable 笔记本使用。该笔记本将文本转换为令牌，将令牌转换为文本，并根据完整的令牌表进行搜索。
西蒙分析得出的一些重要见解包括：

大多数常用英语单词都有一个标记
有些单词的标记带有前导空格，从而能更有效地对完整句子进行编码
非英语语言的标记化效率可能较低
差错标记可能导致意想不到的行为。

相关链接：https://lnkd.in/eXTcia8Z

7. 块可视化《Chunkviz app》

分块是一种策略，包括在构建 LLM 应用程序时将大段文本分解成较小的片段。这一点很重要，这样您就可以将文档放入模型的上下文窗口中。上下文窗口指的是语言模型可以一次性处理的最大文本长度。但是，分块的策略有很多种，而这正是该工具的优势所在。您可以从各种分块策略中进行选择，并查看其对文本的影响。目前，您可以从四种不同的 LangChainAI 拆分器中可视化文本拆分和分块策略。

相关链接：https://chunkviz.up.railway.app/