【Bert】自然语言(Language Model)入门之---Bert

every blog every motto: Although the world is full of suffering, it is full also of the overcoming of it

0. 前言

对bert进行梳理

论文: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
时间: 2018.10.11
作者: Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova

1. 正文

1.1 整体理解

Transformer的第一版时2017.6.12

bert(用到Transformer的Encoder)的第一版arxiv上的文章时间时2018.10.11

GPT1(用到Transformer的Decoder)在arxiv上没找到对应的文章,但是第一版的bert中就有把GPT1作为参考,所以GPT1的时间应该是在2018.10.11之前

动作不得不说快阿!!!
20240727155313


下图展示了三种模型的不同

bert: 双向(Transformer Encoder)

GPT1:从左到右单向(Transformer Decoder)

ELMo:单独训练从左到右从右到左,再结合(bert双向也是借鉴于此,ELMo基础单元是LSTM,这是一个比较早的东东了)

20240727155503

具体来说,bert使用Transformer的encoder部分作为基础单元进行堆叠,而GPT使用decoder部分作为基础单元进行堆叠。

20240727161515

Bert有两个版本,一个是base (12层),一个是large(24层),base的参数量是110M,large的参数量是340M。
base的作用是为了和GPT1作对比。

base:
L:12; H:768; A:12

large:
L:24; H:1024; A:16

说明: 编码器层数L,注意力头数A,隐藏层数H.

20240727165712

1.2 和GPT1的对比

和GPT1相比的话,主要有两点不同,一个是bert是双向,另一个是预训练。

其中GPT1预训练,是预测一个句子的下一个词是什么(这个在NLP中我们也称作Language Modeling(LM)),如下:
20240727174708


而bert的预训练是以下两个:

1.2.1 任务一:“完型填空”

不同于常规思路预测下一词。

上面说了bert是双向的,如果预测下一个词,那将是没有意义。所以对输入的词进行mask,即遮住,然后让模型去预测遮住的词是什么。(是不是和我们做的完形填空一样!!!),论文中将这个称为:“masked LM” (MLM)

如下,将hairy进行Mask以后去预测:

my dog is hairy → my dog is [MASK]

然后对网络的输出结果相应位置进行softmax,得到每个词的概率分布,然后取概率最大的词作为预测结果。如下图:

20240731153330

但是存在一个问题,mask15%比例比较高,这会造成某些词在微调(fine-tuning)时候没有见过,此外,微调的时候是没有mask的,为了让预训练和微调匹配,做了一些调整。

每一个句子会预测15%token,在这其中,

  • 80%的token被替换成[MASK], my dog is hairy → my dog is [MASK]
  • 10%的token被替换成随机词, my dog is hairy → my dog is apple
  • 10%的token保持不变, my dog is hairy → my dog is hairy

20240727180536

1.2.2 任务二:预测下一个句子

在NLP中的某些任务当中,需要将两个句子作为输入(如,问答系统),所以bert中的预训练添加了一个的新的训练方式----Next Sentence Prediction,下一个句子预测。

具体的是一次输入两个句子,最后有一个输入,判断是否相似。如下图:

其中, 50%的输入数据B是A的下一个句子,50%的数据B是从语料库中随机选取的。
20240728155338

1.2.3 小结

现在我们看下面这个图应该比较好理解了。

在pre-training阶段,输出的第一位是用于判断是否是下一个句子(NSP,任务二,二分类)后续输出是做
完型填空(MLM,任务一,多分类)。

20240730144910


关于输入,需要注意的是,输入的是一个序列(sequence),一个sequence可能是一个句子(sentence)也可能是两个句子(sentence,为了适应下游的问题任务)。

而一个句子setence,更准确是一段连续的文本,不是我们常规的“句子”。

20240730150924

1.3 小结

除了论文中提到的base和large,github上还有其他版本。

  • BERT-tiny, L = 2 , H = 128 L=2,H=128L=2,H=128
  • BERT-mini, L = 4 , H = 256 L=4,H=256L=4,H=256
  • BERT-small, L = 4 , H = 512 L=4,H=512L=4,H=512
  • BERT-medium, L = 8 , H = 512 L=8,H=512L=8,H=512

20240730153820

主要贡献:

  • 引入了Masked LM,使用双向LM做模型预训练。
  • 为预训练引入了新目标NSP,它可以学习句子与句子间的关系。
  • 进一步验证了更大的模型效果更好: 12 --> 24 层。
  • 为下游任务引入了很通用的求解框架,不再为任务做模型定制。
  • 刷新了多项NLP任务的记录,引爆了NLP无监督预训练技术。

1.4 关于输入

bert的是输入是一个序列(sequence,包含多个句子(sentence)),而网络的最小处理单元是一个词,就是token。关于bert中具体的分词方式我们暂时按下不表。

我们先看一个例子。 若我们一个序列是:

Sentence A: Paris is a beautiful city. 
Sentence B: I love Paris.

1.4.1 token

先将句子进行分词,转换成一个个token以后,如下:

[CLS] Paris is a beautiful city . [SEP] I love Paris . [SEP]

其中,

  • [CLS]放在序列第一个位置,用于分类(NSP,下一个句子预测)
  • [SEP]放在每个句子(sentence)结尾,用于区分句子和句子。

20240731141555

1.4.2 segment

由于我们一次会输入两个句子(sentence),所以需要区分是句子A还是句子B,所以bert中引入了segment,用于区分句子A和句子B。

  • 句子A的segment id为0
  • 句子B的segment id为1

20240731141725

1.4.3 position

由于bert的输入是一个序列,而序列的长度是有限的,所以需要将序列进行截断,而截断以后,我们无法知道每个词在句子中的位置,所以bert中引入了position,用于表示每个词在句子中的位置。

20240731141816

1.4.4 最终的输入

最终的输入是将上面的token、segment和position相加

20240731141929

1.5 分词:WordPiece

bert中的分词采用的是WorPiece,是Google在2016年提出的,它将词拆分成更小的子词,比如,将“unhappiness”拆分成“un”和“-happy”,这样就可以避免OOV问题。

具体做法:检查单词是否在词表(vocabulary)中,如果在则标记;否则,拆分成子词,

对子词继续重复前面的过程(然后检查子词是否在词表中,如果在则标记;否则,继续拆分,直到拆分出来的子词在词表中。)

Bert的词表有30k标记。

比如:

"Let us start pretraining the model."

其中pretraining不在词表中,所以会被拆分成pre##train##ing
前面的#表示这个单词为一个子词,并且它前面有其他单词。现在我们检查子词##train和##ing是否出现在词表中。因为它们正好在词表中,所以我们不需要继续拆分。

所以上述句子会被拆分成:

tokens = [let, us, start, pre, ##train, ##ing, the, model]

增加[CLS]和[SEP]后是:

tokens = [ [CLS], let, us, start, pre, ##train, ##ing, the model, [SEP] ]

1.6 预处理代码

我们的原始数据是文本,而所谓的神经网络训练本质是对数字进行数学运算。

所以我们需要将文本转换为数字,而转换的过程就是预处理。下面我们看下代码

1.6.1 步骤

本次使用的是抱脸的transformers库

pip install transformers
1. 导入库

导入库,加载预训练的模型和分词器。

from transformers import BertModel, BertTokenizer
import torch
model = BertModel.from_pretrained('bert-base-uncased')
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')


离线情况下

model_path = './model_path'
bert = BertModel.from_pretrained(pretrained_model_name_or_path=model_path)

将下图中需要的文件下载到本地即可
20240731170325

2. 分词
sentence = 'I love Paris'
tokens = tokenizer.tokenize(sentence)
print(tokens)

20240731172120

3. 添加CLS、SEP
tokens = ['[CLS]'] + tokens + ['[SEP]']
print(tokens)

20240731172404

4. 添加pad

正常的bert的输入是个固定长度,如果长度超过这个固定长度进行截断,小于该固定长度添加pad。
假设固定长度是7,现在我们的tokens长度位5,所以需要添加pad

tokens = tokens + ['[PAD]'] + ['[PAD]']
tokens

20240731172416

5. mask

bert中的encoder内部是注意力机制,我们需要传入一个mask,用于区分正常词和pad。

attention_mask = [1 if i!= '[PAD]' else 0 for i in tokens]
attention_mask

20240731172622

6. 转为id

不管是中文还是英文句子都是字符,而神经网络是对数字进行训练。所以需要将字符转化为数字。
不管是中文还是英文句子都是字符,而神经网络是对数字进行训练。所以需要将字符转化为数字。
不管是中文还是英文句子都是字符,而神经网络是对数字进行训练。所以需要将字符转化为数字。

token_ids = tokenizer.convert_tokens_to_ids(tokens)
token_ids

20240731172816

本质是从一个大的字典里面找到每次词对应的id。

20240731173125

7. 转为tensor
import torch
token_ids = torch.tensor(token_ids).unsqueeze(0)
attention_mask = torch.tensor(attention_mask).unsqueeze(0)

print(token_ids.shape)
print(token_ids)

我们输入是一个句子,每个句子的长度是7。
20240731173434

8. 输入模型
hidden_rep, cls_head = bert(token_ids, attention_mask=attention_mask,return_dict=False)

print(hidden_rep.shape,cls_head.shape)

hidden_rep : 是bert中最后一个encoder的输出,维度是[1,7,768]
cls_head : 是cls的输出,维度是[1,768]

对于hidden_rep,1表示一个1个句子,7表示句子的长度,768表示每个词的向量维度 (一个词用一个长度为768的向量表示)

20240731173758

1.6.2 小结

我们处理的是句子,而所谓的神经网络训练本质是对数字进行加减乘除运算。所以实际输入网络的是数字。

原始的是文本,输入网络的是经过字典映射的数字。

20240801102417

1.7 关于embedding

如果看论文,会发现bert的输入是embedding,而我们上面的预处理最终的结果好像是token_ids(只是索引而已),这二者有什么关系呢?
20240801113833

在说embedding之前,我们先看下one-hot编码。

1.7.1 one-hot编码

one-hot编码是机器学习中最常用的编码方式,对于每个词,我们用长度为n的向量表示,其中n是词表的大小,向量中只有一个1,其余都是0。

比如中文有5000个词,为了方便我们简化一下,现在词典里面有5个词。[‘我’,‘是’,‘中’,‘国’,‘人’]。

'我们人’可以用如下向量表示:
我:[1 0 0 0 0 ]
是:[0 1 0 0 0 ]
人:[0 0 0 0 1 ]

看起来也比较直观,但是别忘了我们这里词典大小是5,如果5000呢?那么这个词的向量就是5000维的,如果50000呢?50000维的向量,是不是有点太大了?

这会导致我们的结果非常的稀疏!

其次,one-hot编码之间的向量是正交的,词和词之间没有关系,比如’我’和’是’之间没有关系,'中’和’国’之间也没有关系,这显然是不合理的。

所以就出现了embedding

1.7.2 embedding

embedding是一个词典,更通俗的说一个二维向量。

我们的embedding现在是(5000,768),5000表示词表大小,768表示每个词的向量维度。

啥意思?就是我们的词表里面有5000个词,每个词用一个长度为768的向量表示。

现在我们要表示,只需要根据这个词对应的索引,在5000个词中找到对应的向量即可。而这个向量是一个长度为768的向量。

768相比之前的5000小了不少。同时词和词和词之间也有有关系的。

1.7.3 代码示例

构建一个含有10个词的词表,每个词用一个长度为3的向量表示。

import torch
import torch.nn as nn

# 创建 Embedding 层
num_embeddings = 10  # 词汇表大小
embedding_dim = 3    # 嵌入向量的维度
embedding_layer = nn.Embedding(num_embeddings, embedding_dim)
embedding_layer

20240801115321

我们看下词表里面的值是个啥

embedding_layer.weight

20240801115454

现在我们有词索引如下:

# 示例输入
input_indices = torch.LongTensor([1, 2, 3, 4])
print('input.shape: ',input_indices.shape)
print("Input indices:", input_indices)

20240801115154

现在我们根据对应的词到词表中查找我们的词对应的向量。

# 获取嵌入向量
output_vectors = embedding_layer(input_indices)
print('output.shape: ',output_vectors.shape)
print("Output vectors:", output_vectors)

20240801115625

这个值是从词表中来的。
20240801115726

1.7.4 bert官方部分代码

20240801120709

1.7.5 小结

embedding正式表述是词表,或是或是词典。更本质来说是一个二维向量。

通过“查表”我们获得了每一个词的向量表示。这样的表示相比one-hot编码更稠密。同时,也能表达词和词之间的关系。

开始是我们的embedding参数是随机的,通过不断的训练,含义更加准确。

1.8 小结

bert 借鉴了GPT1和ELMo,使用Transformer的encoder部分进行堆叠。

两种预训练(MLM和NSP)能够更有效的获取语义信息。

参考

  1. https://cloud.tencent.com/developer/article/2058413
  2. https://blog.csdn.net/jiaowoshouzi/article/details/89073944
  3. https://blog.csdn.net/yjw123456/article/details/120211601
  4. https://blog.csdn.net/weixin_42029738/article/details/139578563
  5. https://helloai.blog.csdn.net/article/details/120211601
  6. https://www.cnblogs.com/JuggyZhan/p/18249075
  7. https://cloud.tencent.com/developer/article/2348457
  8. https://cloud.tencent.com/developer/article/2336439
  9. https://blog.csdn.net/magicyangjay111/article/details/132665098
  10. https://www.cnblogs.com/zackstang/p/15387549.html
  11. https://blog.csdn.net/yjw123456/article/details/120232707
  12. https://people.ee.duke.edu/~lcarin/Dixin2.22.2019.pdf

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/972814.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

ARM64 Trust Firmware [五]

本章介绍 ATF 中的 Runtime Service 是如何定义和被调用的。 要了解 SMC&#xff0c;必须从 SMC 指令本身开始&#xff0c;其指令如下图&#xff1a; 指令格式为&#xff1a;SMC #<imm>&#xff0c;从官方文档了解到该指令只能在 EL1 以及更高的异常等级上调用&#xff…

轻量级5G核心网:适应未来网络需求的关键方案

5G核心网 随着5G技术的迅速普及&#xff0c;网络架构正面临前所未有的变革。传统的5G核心网部署逐渐暴露出在处理大量设备连接、降低运营成本和提升网络灵活性方面的局限性。在这一背景下&#xff0c;轻量级5G核心网&#xff08;Lightweight 5G Core Network&#xff09;成为了…

uniapp uni.request重复请求处理

类似这种切换tab时&#xff0c;如果操作很快并且网络不太好&#xff0c;就出现数据错乱&#xff0c;在网上查了一圈&#xff0c;有一个使用uview拦截处理的&#xff0c;但是原生uni.requse没有找到详细的解决办法&#xff0c;就查到使用 abort 方法&#xff0c;我自己封装了一个…

一周学会Flask3 Python Web开发-http响应状态码

锋哥原创的Flask3 Python Web开发 Flask3视频教程&#xff1a; 2025版 Flask3 Python web开发 视频教程(无废话版) 玩命更新中~_哔哩哔哩_bilibili 在Flask程序中&#xff0c;客户端发出的请求触发相应的视图函数&#xff0c;获取返回值会作为响应的主体&#xff0c;最后生成…

FastGPT及大模型API(Docker)私有化部署指南

​​欢迎关注【AI技术开发者】 ​ 经过优化&#xff0c;在不影响FastGPT功能的情况下&#xff0c;大幅降低了部署的设备配置要求&#xff0c;仅需1c1h即可正常部署使用。 官方要求配置&#xff1a; ​ ​ 优化后的实际占用情况&#xff1a; 运行内存仅需370M&#xff08…

个人博客5年回顾

https://huangtao01.github.io/ 五年前&#xff0c;看程序羊的b站视频做的blog&#xff0c;受限于网络&#xff0c;只能单向学习&#xff0c;没有人指导与监督&#xff0c;从来没有想过&#xff0c;有没有什么问题&#xff1f; 一、为什么要做个人博客&#xff1f; 二、我是怎么…

11.编写前端内容|vscode链接Linux|html|css|js(C++)

vscode链接服务器 安装VScode插件 Chinese (Simplified) (简体中⽂) Language Pack for Visual Studio CodeOpen in BrowserRemote SSH 在命令行输入 remote-ssh接着输入 打开配置文件&#xff0c;已经配置好主机 点击远程资源管理器可以找到 右键链接 输入密码 …

DeepSeek R1生成图片总结2(虽然本身是不能直接生成图片,但是可以想办法利用别的工具一起实现)

DeepSeek官网 目前阶段&#xff0c;DeepSeek R1是不能直接生成图片的&#xff0c;但可以通过优化文本后转换为SVG或HTML代码&#xff0c;再保存为图片。另外&#xff0c;Janus-Pro是DeepSeek的多模态模型&#xff0c;支持文生图&#xff0c;但需要本地部署或者使用第三方工具。…

【达梦数据库】dblink连接[SqlServer/Mysql]报错处理

目录 背景问题1&#xff1a;无法测试以ODBC数据源方式访问的外部链接!问题分析&原因解决方法 问题2&#xff1a;DBLINK连接丢失问题分析&原因解决方法 问题3&#xff1a;DBIINK远程服务器获取对象[xxx]失败,错误洋情[[FreeTDS][SQL Server]Could not find stored proce…

【从0做项目】Java搜索引擎(4)——性能优化~烧脑~~~

本篇文章将对项目搜索引擎&#xff08;1&#xff09;~&#xff08;3&#xff09;进行性能优化&#xff0c;包括测试&#xff0c;优化思路&#xff0c;优化前后对比 目录 一&#xff1a;文件读取 二&#xff1a;实现多线程制作索引 1&#xff1a;代码分析 2&#xff1a;代码…

YOLOv12推理详解及部署实现

目录 前言一、YOLOv12推理(Python)1. YOLOv12预测2. YOLOv12预处理3. YOLOv12后处理4. YOLOv12推理 二、YOLOv12推理(C)1. ONNX导出2. YOLOv12预处理3. YOLOv12后处理4. YOLOv12推理 三、YOLOv12部署1. 源码下载2. 环境配置2.1 配置CMakeLists.txt2.2 配置Makefile 3. ONNX导出…

在VS-qt的程序中,后期增加PCH预编译功能,提高编译速度

由于前期创建qt程序的时候未勾选pch功能,导致没有启动预编译的功能. 这种情况下需要增加pch功能应该怎么做? 在项目中增加2个文件 stdafx.h和stdafx.cpp文件 stdafx.h增加qt常用头文件 #pragma once //windows #include <windows.h>//qt常用 #include <QObject&g…

校园网架构设计与部署实战

一、学习目标 掌握校园网分层架构设计原则 理解多业务VLAN规划方法 学会部署认证计费系统 实现基础网络安全防护 二、典型校园网场景 需求分析&#xff1a;某中学需建设新型校园网络 覆盖教学楼/宿舍/图书馆三区域 区分教师/学生/访客网络权限 满足2000终端并发接入 …

阐解WiFi信号强度

WiFi信号强度是指无线网络信号的强度&#xff0c;通常以负数dB&#xff08;分贝&#xff09;来表示。信号越强&#xff0c;dB值越接近零。WiFi信号强度直接影响你的网络速度、稳定性和连接的可靠性。简单来说&#xff0c;WiFi信号越强&#xff0c;你的设备与路由器之间的数据传…

【Quest开发】全身跟踪

软件&#xff1a;Unity 2022.3.51f1c1、vscode、Meta XR All in One SDK V72 硬件&#xff1a;Meta Quest3 最终效果&#xff1a;能像meta的操作室沉浸场景一样根据头盔移动来推断用户姿势&#xff0c;实现走路、蹲下、手势匹配等功能 需要借助UnityMovement这个包 GitHub …

用Chrome Recorder轻松完成自动化测试脚本录制

前言 入门自动化测试,录制回放通常是小白测试首先用到的功能。而录制回放工具也一直是各大Web自动化测试必然会着重提供的一块功能。 早期WinRunner、QTP这样的工具,自动化测试可以说是围绕录制回放开展的。近年像Selenium也提供有录制工具 Selenium IDE,Playwright也包含…

延迟任务的11种实现方式(下)!!

接上文&#xff1a; Redisson的RDelayedQueue Redisson他是Redis的儿子&#xff08;Redis son&#xff09;&#xff0c;基于Redis实现了非常多的功能&#xff0c;其中最常使用的就是Redis分布式锁的实现&#xff0c;但是除了实现Redis分布式锁之外&#xff0c;它还实现了延迟…

大型语言模型训练与优化实战指南(2025最新版)

一、大模型训练四部曲 1.1 预训练&#xff1a;构建语言理解的基石 预训练是模型获取通用语言能力的核心阶段&#xff0c;主流方法包括&#xff1a; 自回归生成&#xff08;如GPT系列&#xff09;&#xff1a;预测下一个词&#xff0c;参数规模可达1.8T掩码语言建模&#xff…

【前端】使用WebStorm创建第一个项目

文章目录 前言一、步骤1、启动2、创建项目3、配置Node.js4、运行项目 二、Node.js介绍 前言 根据前面文章中记录的步骤&#xff0c;已经安装好了WebStorm开发软件&#xff0c;接下来我们就用这个IDE开发软件创建第一个项目。 一、步骤 1、启动 启动软件。 2、创建项目 新建…

QML Image 圆角设置

Image 默认是没有圆角的&#xff0c;但是为了让ui看起来美观&#xff0c;有时需要加上圆角&#xff0c;这里分享一种利用遮罩实现的方法。 import QtQuick 2.15 import QtQuick.Controls 2.15 import QtGraphicalEffects 1.15 import Movie 1.0Card {id:rootwidth: 325height:…