AI大语言模型学习笔记之三:协同深度学习的黑魔法 - GPU与Transformer模型

Transformer模型的崛起标志着人类在自然语言处理(NLP)和其他序列建模任务中取得了显著的突破性进展,而这一成就离不开GPU(图形处理单元)在深度学习中的高效率协同计算和处理。

Transformer模型是由Vaswani等人在2017年提出的,其核心思想是自注意力机制(self-attention mechanism),它在处理序列数据时能够捕捉长距离依赖关系,从而在NLP等任务中取得了优异的性能。

而GPU(图形处理单元)在这一突破性进展中发挥了重要作用。深度学习模型的训练通常需要大量的计算资源,而传统的中央处理单元(CPU)由于硬件架构的差异和并行处理性能的限制,在处理需要大量矩阵乘法和其他张量操作的高度并行深度学习任务时速度较慢。

在这里插入图片描述

而图形处理单元(GPU)是专门设计用于高度并行计算的专用芯片,特别适合加速深度学习任务。由于Transformer模型具有大量的参数,会对大规模的数据进行大量的高速并行计算和训练,GPU的并行处理能力就为大模型的训练提供了巨大的加速,因此更适合深度学习工作负载,使研究人员和工程师能够充分利用GPU的性能进行模型训练。
在这里插入图片描述

在训练大规模的Transformer模型时,使用GPU可以大幅缩短训练时间,加速模型的研发和部署过程。

因此,Transformer模型在NLP和序列建模任务中的成功与GPU的协同处理密不可分,为深度学习领域的发展和应用带来了显著的影响。

那么,在进行Transformer模型的深度学习任务时,GPU是如何运作的呢?下面我尝试通过一个简单的例子看看是否能够说明各个部件是如何协同工作的。

GPU在Transformer中的角色

Transformer 模型是一种基于自注意力机制的深度神经网络架构,其庞大的参数量和复杂的计算要求对计算机的计算能力的要求非常高。

我们知道目前使用的PC电脑或者服务器主要的计算处理模块都是CPU(中央处理单元),平常用来玩玩游戏、听听音乐、看电影、刷个剧不在话下,用来做专业设计、剪辑短视频、编辑文档、打印文件等工作也是得心应手。
在这里插入图片描述

之所以PC能干这么多不同的事情,主要是因为普通电脑的CPU(中央处理单元)在其架构设计时主要注重了多用途性能和通用的计算能力。CPU被设计成适用于各种任务,包括通用计算、图形界面处理、文件管理、音视频编码解码等。

而当我们进行 AI 深度学习任务时就不一样了。

深度学习的崛起引入了大规模的神经网络和复杂的模型结构,这导致了更多的参数和更复杂的计算图,通常涉及到大规模的矩阵乘法和张量运算,为了提升计算速度,这些操作通常是多个运算并行进行的,对计算机的并行能力提出了很高的要求。

诸如ChatGPT和GPT-4这样最先进的 AI 生成式预训练大语言模型涉及上万亿到上百万亿的参数和海量的数据,通常需要构建及其庞大的 AI GPU Cluster 集群才能满足计算、训练和推理需求,对 GPU 的计算能力要求更是堪称天花板级别的。
在这里插入图片描述

传统CPU虽然具有一些多核心,而且每个核心挺强的,但是数量确实少了点,难以满足深度学习大规模并行计算的需求。与此不同,现代GPU专注于大规模并行计算,拥有许多小型处理单元,使得它们在处理深度学习任务时更为高效。

就拿 英特尔(Intel) 和 英伟达(NVIDIA)2023年各自发布的最新一代架构和核心处理器:
Intel® Xeon® Platinum 8593Q 和 NVIDIA H100 Tensor Core GPU 来说,核心数量和浮点运算性能对比如下:

第五代英特尔  至强  可扩展处理器

处理器核心数量FP64 FLOPSFP32 FLOPSTF32 FLOPS
Intel Xeon 8593Q CPU64 核128 线程5.04 TFLOPS (每秒5.04万亿次)4.96 TFLOPS (每秒4.96万亿次)4.94 TFLOPS (每秒4.94万亿次)
NVIDIA H100 GPU18432 个 CUDA 核心 576个Tensor张量核心60 TFLOPS (每秒60万亿次)60 PFLOPS (每秒60万亿次)1000 PFLOPS(每秒1000万亿次)

在这里插入图片描述

其中,FP64 表示双精度浮点运算,FP32 表示单精度浮点运算,TF32 表示混合精度浮点运算。

从上面的表格可以看出,NVIDIA H100 GPU 在 FP64 和 FP32 两个精度下的每秒浮点运算次数都比 Intel Xeon 8593Q 高出一个数量级(10倍)还要多,在 TF32 精度下的每秒浮点运算次数高出了约200多倍。这意味着 NVIDIA H100 GPU 在浮点计算方面具有明显的优势。

而传统的 CPU 架构在面对 AI 深度学习这种大数据量高并发张量计算时可能就显得力不从心,因为它们的设计更注重于处理多样化且频繁切换的任务,而非大规模数据的并行计算。

另外,深度学习框架和库通常会使用针对GPU设计的特定指令集和特殊优化,而这些优化使得GPU处理器更好地与深度学习任务协同工作。相较之下,CPU在这方面的优化可能比较有限,导致在同样进行深度学习任务时性能较慢。

因此,GPU 处理器在 Transformer 模型中的角色主要体现在其强大的并行计算能力,使得处理大规模、高度并行的深度学习任务变得高效和可行。这为深度学习在一系列自然语言处理(NLP)大模型和其他序列建模任务中的成功进展提供了重要的计算基础。

并行化的自注意力机制

Transformer中的自注意力机制(Self-Attention)是其核心组成部分之一,用于建立输入序列中每个元素与其他元素之间的关联。

为了更好的理解Transformer中的自注意力机制(Self-Attention),让我从一个简单的例子开始。假设你说了一句话:“我爱北京天安门”。我们想知道这句话中的每个词与其他词的关系。

在传统的自然语言处理(NLP)模型中,会将这句话的每个词转换为一个向量,然后使用这些向量来计算词与词之间的关系。例如,我们可以计算“我”与“爱”之间的关系。

在注意力计算(Attention Computation)中,查询向量 ( q ) 与输入序列 ( H = [h_1, h_2, …, h_n] ) 之间的计算用于权重分配,以便更加关注输入序列中与查询相关的部分。在机器翻译任务中,尤其是基于 Seq-to-Seq 模型的机器翻译任务,查询向量 ( q ) 通常是解码器(Decoder)端前一个时刻的输出状态向量。

我们考虑一个简化的注意力计算过程,其中使用了点积注意力(Dot-Product Attention)的形式:

Attention ( q , H ) = Softmax ( q ⋅ H T d ) ⋅ H   \text{Attention}(q, H) = \text{Softmax}\left(\frac{q \cdot H^T}{\sqrt{d}}\right) \cdot H \ Attention(q,H)=Softmax(d qHT)H 

其中,( · ) 表示矩阵乘法,  ( H T )  \ (H^T) \  HT  表示输入序列的转置,  ( d )  \ (\sqrt{d} ) \  d   用于缩放,以防止点积的数值过大。Softmax 函数用于将点积的结果转化为权重分布。

在机器翻译中,( q ) 可以是解码器的前一个时刻的隐藏状态,而 ( H ) 是编码器的所有隐藏状态。这样,计算得到的注意力权重将反映出解码器当前时刻对编码器各个时刻隐藏状态的关注程度。

机器翻译示例图

通过将查询向量 ( q ) 与输入序列 ( H ) 进行点积计算,并使用 Softmax 函数生成权重分布,注意力机制使得模型能够自动关注输入序列中与当前解码器状态相关的部分,这对于更好地捕捉输入和输出序列之间的关联关系非常有帮助。

但是,这种方法存在一个问题。它假设每个词与其他词的关系都是相同的。例如,它假设“我”与“爱”的关系与“爱”与“北京”的关系相同。

自注意力机制(self-Attention)可以解决这个问题。它允许模型根据每个词的上下文来计算词与词之间的关系。

在我们的例子中,自注意力机制可以计算“我”与“爱”之间的关系,同时考虑“北京”和“天安门”这两个词。例如,它可以发现“我”与“爱”之间的关系更强,因为它们都是动词。

在自注意力机制中,采用了查询-键-值(Query-Key-Value)的机制,其中查询向量(Query vector)可以根据输入信息进行生成,而不是事先确定。

BERT(Bidirectional Encoder Representations from Transformers)是一个使用自注意力机制的预训练模型,下面让我们简要讨论BERT中的自注意力机制。

自注意力机制的计算过程

在上图中,我们有输入信息
  H = [ h 1 , h 2 ]   \ H = [h_1, h_2] \  H=[h1,h2] 
其中蓝色矩阵的每一行代表一个对应的输入向量。此外,图中还有三个矩阵
  W q , W k , W v   \ W_q, W_k, W_v \  Wq,Wk,Wv 
它们负责将输入信息 ( H ) 依次转换到相应的查询空间
  Q = [ q 1 , q 2 ]   \ Q = [q_1, q_2] \  Q=[q1,q2] 
键空间
  K = [ k 1 , k 2 ]   \ K = [k_1, k_2] \  K=[k1,k2] 
值空间
  V = [ v 1 , v 2 ]   \ V = [v_1, v_2] \  V=[v1,v2] 
[ q 1 = h 1 W q , q 2 = h 2 W q ] ⇒ Q = H W q [ k 1 = h 1 W k , k 2 = h 2 W k ] ⇒ K = H W k [ v 1 = h 1 W v , v 2 = h 2 W v ] ⇒ V = H W v \begin{align*} [q_1 = h_1W_q, q_2 = h_2W_q] & \Rightarrow Q = HW_q \\ [k_1 = h_1W_k, k_2 = h_2W_k] & \Rightarrow K = HW_k \\ [v_1 = h_1W_v, v_2 = h_2W_v] & \Rightarrow V = HW_v \\ \end{align*} [q1=h1Wq,q2=h2Wq][k1=h1Wk,k2=h2Wk][v1=h1Wv,v2=h2Wv]Q=HWqK=HWkV=HWv

在获得输入信息在不同空间的表示 ( Q, K, ) 和 ( V ) 后,我们以 ( h_1 ) 为例,计算这个位置的一个 attention 输出向量 ( \text{context}_1 ),它代表在这个位置模型应该重点关注的内容,如图3所示。

在这里插入图片描述

可以看到,在获得原始输入 ( H ) 在查询空间、键空间和值空间的表示 ( Q, K, ) 和 ( V ) 后,计算 ( q_1 ) 在 ( h_1 ) 和 ( h_2 ) 的分数 ( s_{11} ) 和 ( s_{12} ),这里的分数计算采用的是点积操作。

然后将分数进行缩放并使用 softmax 进行归一化,获得在 ( h_1 ) 这个位置的注意力分布: ( a_{11} ) 和 ( a_{12} ),它们代表模型当前在 ( h_1 ) 这个位置需要对输入信息 ( h_1 ) 和 ( h_2 ) 的关注程度。最后,根据该位置的注意力分布对 ( v_1 ) 和 ( v_2 ) 进行加权平均,获得最终在 ( h_1 ) 这个位置的 Attention 向量 ( \text{context}_1 )。

同理,可以获得第2个位置的 Attention 向量 ( \text{context}_2 ),或者继续扩展输入序列获得更多的 ( \text{context}_i ),原理都是一样的。

讨论到这里,相信你已经知道什么是注意力机制了,但为了更正式一点,我重新组织一下注意力机制的计算过程。

自注意力机制的计算过程可以分为以下几个步骤:

  • 将每个词转换为一个向量。
  • 计算每个词与其他词之间的相似度。
  • 使用相似度来计算每个词的注意力权重。
  • 使用注意力权重来加权每个词的向量。

最终,每个词都会得到一个加权后的向量,这个向量包含了该词与其他词的关系。

假设当前有输入信息 ( H = [h_1, h_2, …, h_n] ),我需要使用自注意力机制获取每个位置的输出

context = [ context 1 , context 2 , . . . , context n ] \text{context} = [\text{context}_1, \text{context}_2, ..., \text{context}_n] context=[context1,context2,...,contextn]
首先,需要将原始输入映射到查询空间 ( Q )、键空间 ( K ) 和值空间 ( V ),相关计算公式如下:

Q = H W q = [ q 1 , q 2 , . . . , q n ] K = H W k = [ k 1 , k 2 , . . . , k n ] V = H W v = [ v 1 , v 2 , . . . , v n ] \begin{align*} Q & = HW_q = [q_1, q_2, ..., q_n] \\ K & = HW_k = [k_1, k_2, ..., k_n] \\ V & = HW_v = [v_1, v_2, ..., v_n] \\ \end{align*} QKV=HWq=[q1,q2,...,qn]=HWk=[k1,k2,...,kn]=HWv=[v1,v2,...,vn]

接下来,计算每个位置的注意力分布,并将相应结果进行加权求和:

context i = ∑ j = 1 n softmax ( s ( q i , k j ) ) ⋅ v j \text{context}_i = \sum_{j=1}^n \text{softmax}(s(q_i, k_j)) \cdot v_j contexti=j=1nsoftmax(s(qi,kj))vj

其中 ( s(q_i, k_j) ) 是经过上述点积、缩放后的分数值。

最后,为了加快计算效率,可以使用矩阵计算的方式,一次性计算出所有位置的 Attention 输出向量:

context = softmax ( Q K T / d ) V \text{context} = \text{softmax}(QK^T/\sqrt{d})V context=softmax(QKT/d )V

这就是自注意力机制(self-Attention)的原理。

在进行自注意力计算时,GPU处理器的并行计算能力就可以大显身手了。以一个批次大小为64的例子为例,GPU处理器能够同时计算64个样本中每个样本的自注意力,加速整个模型的训练过程。

# 伪代码示例:Transformer中的自注意力计算
import torch
import torch.nn.functional as F

def self_attention(Q, K, V):
    attention_scores = torch.matmul(Q, K.transpose(-2, -1)) / torch.sqrt(Q.size(-1))
    attention_weights = F.softmax(attention_scores, dim=-1)
    output = torch.matmul(attention_weights, V)
    return output

# 在GPU上进行自注意力计算
Q_gpu = Q.to('cuda')
K_gpu = K.to('cuda')
V_gpu = V.to('cuda')

output_gpu = self_attention(Q_gpu, K_gpu, V_gpu)

这里,Q、K、V是输入序列的查询、键和值的表示,通过GPU上的矩阵乘法和softmax计算,同时处理多个样本的注意力权重。

多头注意力的并行化

Transformer模型中还引入了多头注意力机制,通过并行计算多个注意力头,提高了模型的表示能力。GPU处理器的并行计算能力极大地加速了多头注意力的计算,每个注意力头都可以在不同的GPU核心上独立计算。

# 伪代码示例:Transformer中的多头注意力计算
class MultiHeadAttention(torch.nn.Module):
    def __init__(self, num_heads, hidden_size):
        # 初始化多个注意力头
        self.attention_heads = [self_attention(Q, K, V) for _ in range(num_heads)]

    def forward(self, input):
        # 并行计算多个注意力头
        outputs = [attention_head(input) for attention_head in self.attention_heads]
        # 合并多个头的输出
        output = torch.cat(outputs, dim=-1)
        return output

# 在GPU上进行多头注意力计算
multihead_attention_gpu = MultiHeadAttention(num_heads=8, hidden_size=256).to('cuda')
output_gpu = multihead_attention_gpu(input_gpu)

在上述示例中,每个注意力头的计算可以独立地在GPU上进行,最后再通过GPU处理器的并行计算能力将它们合并。

CUDA流的优化

GPU通过CUDA流式处理的机制实现了高效的计算,这在Transformer模型的训练中尤为重要。例如,当进行反向传播时,GPU能够异步执行计算任务,从而实现数据的流水线处理,极大地提升了大模型的整体训练效率。

# 伪代码示例:反向传播过程中的CUDA流处理
loss.backward()
optimizer.step()

# 在GPU上异步执行计算任务
torch.cuda.synchronize()

上述代码中,反向传播和优化步骤进行了异步执行,通过torch.cuda.synchronize()等待计算完成,确保了计算的正确性。

GPU在Transformer 大模型中的协同计算处理任务中功不可没,其在架构和功能设计中体现出的强大的并行计算、流式处理和多头注意力的优势,堪称黑魔法,为AI 大模型的深度学习任务提供了强大的堪称黑魔法般的加持。

通过以上的例子来理解 GPU 在 Transformer 模型中的运行和处理机制,我们能够更加深入地体会深度学习和大语言模型这一魔法舞台的精彩。

正是在GPU的协同处理的魔法加持下,Transformer模型才得以在自然语言处理等领域创造出一系列令人瞩目的成果,极大地推进了诸如ChatGPT、Claude、Gemini、LLama、Vicuna 等杰出的生成式 AI 大模型的研究进展和部署应用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/355626.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

美化背景(拼图小游戏)

package Puzzlegame.com.wxj.ui;import javax.swing.*; import javax.swing.border.BevelBorder; import java.util.Random;public class GameJframe extends JFrame { //游戏主界面 //创建一个二维数组//目的:管理数据//加载图片的时候,会根据二维数组中…

漏洞原理MySql注入 Windows中Sqlmap 工具的使用

漏洞原理MySql注入 SQLmap是一款开源的自动化SQL注入工具,用于检测和利用Web应用程序中的SQL注入漏洞。以下是SQLmap工具的使用总结: 安装和配置:首先需要下载并安装SQLmap工具。安装完成后,可以通过命令行界面或图形用户界面来使…

ElasticSearch 学习笔记

基本概念 术语 文档(document):每条记录就是一个文档,会以 JSON 格式进行存储 映射(mapping):索引中文档字段的约束信息,类似 RDBMS 中的表结构约束(schema&#xff09…

操作系统论述题+第5、6、7、8、9章的知识小点总结(尤其是选择题)

文章目录 一、操作系统论述题怎么提高内存利用率?怎么提高CPU利用率?怎么提高操作系统并发度?这个答案也不知道是什么问题里面的 二、操作系统5、6、7、8、9章选择题知识点第五章:存储器管理第六章:虚拟存储器第七章&a…

Mysql-InnoDB-数据落盘

概念 1 什么是脏页? 对于数据库中页的修改操作,则首先修改在缓冲区中的页,缓冲区中的页与磁盘中的页数据不一致,所以称缓冲区中的页为脏页。 2 脏页什么时候写入磁盘? 脏页以一定的频率将脏页刷新到磁盘上。页从缓冲区…

TensorFlow Lite中文本分类在Android上的实践

#1 Tensorflow Lite TensorFlow Lite(后续简称TFL) 是 Google 开发的一个用于移动设备和嵌入式设备的开源库,旨在为移动终端设备提供机器学习推断。它是 TensorFlow 框架的轻量级版本,专门优化了模型的大小和性能,以适应资源受限的移动设备和嵌入式系统。 TFL 提供了一种在移…

【stm32】hal库学习笔记-FSMC连接TFT_LCD

【stm32】hal库学习笔记-FSMC连接TFT LCD 触摸屏结构与原理 LCD模块接口原理图 LCD 接口连接在 FSMC 总线上面,图中的 T_MISO/T_MOSI/T_PEN/T_SCK/T_CS 连接在 MCU 的 PB2/PF11/PB1/PB0/PC13 上,这些信号用来实现对液晶触摸屏的控制(支持电阻…

go语言函数进阶

1.变量作用域 全局变量 全局变量是定义在函数外部的变量,它在程序整个运行周期内都有效。 在函数中可以访问到全局变量。 package mainimport "fmt"//定义全局变量num var num int64 10func testGlobalVar() {fmt.Printf("num%d\n", num) /…

Linux——文件系统

我们的计算机中一定会有文件,我在之前的博客中已经介绍了内存中的文 件,也就是被打开的文件。但是有被打开的,那就有没有被打开的文件, 这一部分文件是在磁盘中的。我们平时用到的无非就是通过路径找到它,然 后对它进行…

AOP+Redisson 延时队列,实现缓存延时双删策略

一、缓存延时双删 关于缓存和数据库中的数据保持一致有很多种方案,但不管是单独在修改数据库之前,还是之后去删除缓存都会有一定的风险导致数据不一致。而延迟双删是一种相对简单并且收益比较高的实现最终一致性的方式,即在删除缓存之后&…

前端实现界面切换

样式切换主题 常用的主题切换实现方式之一,就是通过 link 标签的 rel 属性来实现的 当 rel 标签的值是 alternate,就代表该样式是可以替换的 title 属性要加就全加上或者全不加,因为 title 会导致系统直接识别成样式文件,意思就是…

DevSecOps 度量指标介绍

目录 一、度量指标概述 1.1 概述 二、度量指标内容介绍 2.1 指标概览 2.1.1 指标概览说明 2.1.2 指标概览图 2.1.3 指标概览图说明 2.2 必选指标 2.2.1 必选指标含义说明 2.2.2 必选指标内容 2.3 可选指标 2.3.1 可选指标含义说明 2.3.2 可选指标内容 一、度量指标…

北京大学:警惕ChatGPT等大模型遏制人类的创新能力

‍ 导语:这篇论文通过实验和跟踪调查,探讨了ChatGPT在有无的情况下对创新能力的影响。虽然ChatGPT能提升人的创新表现,但是当它停止工作时,创新性会回归基线。更为重要的是,使用ChatGPT可能导致内容同质化,…

C#使用DateTime结构的ParseExact方法和Parse方法分别将字符串转化为日期格式

目录 一、涉及到的知识点 1.ParseExact(String, String, IFormatProvider) 2.DateTime.ToLongDateString 方法 3.Parse(String)方法 二、实例1:ParseExact方法 1.源码 2.生成效果 3.示例2 三、实例2:Parse方法 在程序设计过程中,经…

有趣的css - 好看的呼吸灯效果

整体效果 这个效果主要用 css3 的 animation 属性来实现的。 这个效果可以用作在网站的整体 Loading&#xff0c;也可以放在网站首屏当一个 banner 的背景也是非常棒的&#xff01; 代码部分 html 部分代码&#xff1a; <div class"app"><span class&quo…

4. MySQL 多表查询

重点&#xff1a; MySQL 的 三种安装方式&#xff1a;包安装&#xff0c;二进制安装&#xff0c;源码编译安装。 MySQL 的 基本使用 MySQL 多实例 DDLcreate alter drop DML insert update delete DQL select 3.5&#xff09;DDL 语句 表&#xff1a;二维关系 设计表&…

SAR图像目标识别的可解释性问题探讨

源自&#xff1a;雷达学报 作者&#xff1a;郭炜炜, 张增辉, 郁文贤&#xff0c;孙效华 “人工智能技术与咨询” 发布 摘 要 合成孔径雷达(SAR)图像目标识别是实现微波视觉的关键技术之一。尽管深度学习技术已被成功应用于解决SAR图像目标识别问题&#xff0c;并显著超越了…

扫描电子显微镜电子束辐射损伤和如何减轻

扫描电镜&#xff08;Scanning Electron Microscope, SEM&#xff09;是一种常用的材料表征技术&#xff0c;它通过聚焦电子束扫描样品表面&#xff0c;利用电子与样品相互作用产生的信号来获得高分辨率的形貌图像。然而&#xff0c;电子束的辐射可能会对样品造成损伤&#xff…

初探 Backstage:快速上手指南

坦白说&#xff0c;虽然我之前阅读过相关文档&#xff0c;但实际上从未亲自尝试运行 Backstage。我一直有种感觉&#xff0c;Backstage 不过是一个开发者门户而非开发者平台。上周在 分享我对平台工程的理解 后&#xff0c;朋友圈中有人提议我写一篇关于 Backstage 入门的文章。…

(M)unity受伤反弹以及死亡动画

受伤反弹 1.在人物控制脚本中添加受伤后速度将为0&#xff0c;并添加一个反弹的力 在刷新移动时&#xff0c;需要在没有受伤的状态 public bool isHurt; public float hurtForce; private void FixedUpdate() {if(!isHurt)Move(); }public void GetHurt(Transform attacker) …