BERT 论文逐段精读【论文精读】

BERT: 近 3 年 NLP 最火

CV: 大数据集上的训练好的 NN 模型,提升 CV 任务的性能 —— ImageNet 的 CNN 模型

NLP: BERT 简化了 NLP 任务的训练,提升了 NLP 任务的性能

BERT 如何站在巨人的肩膀上的?使用了哪些 NLP 已有的技术和思想?哪些是 BERT 的创新?

1标题 + 作者

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

pre-training: 在一个大的数据集上训练好一个模型 pre-training,模型的主要任务是用在其它任务 training 上。

deep bidirectional transformers: 深的双向 transformers

language understanding: 更广义,transformer 主要用在机器翻译 MT

BERT: 用深的、双向的、transformer 来做预训练,用来做语言理解的任务。

作者:Google AI Language,写作时间短(几个月),大佬大佬

2摘要

新的语言表征模型 BERT: Bidirectional Encoder Representations from Transformers,基于 ELMo

Transformers 模型的双向编码表示

与 ELMo 和 GPT 不同,BERT 从无标注的文本中(jointly conditioning 联合左右的上下文信息)预训练得到 无标注文本的 deep bidirectional representations

pre-trained BERT 可以通过加一个输出层来 fine-tune,在很多任务(问答、推理)有 SOTA 效果,而不需要对特定任务的做架构上的修改。

GPT unidirectional,使用左边的上下文信息 预测未来

BERT bidirectional,使用左右侧的上下文信息

ELMo based on RNNs, down-stream 任务需要调整一点点架构

BERT based on Transformers, down-stream 任务只需要调整最上层。

GPT, down-stream 任务 只需要改最上层。

摘要第一段:和哪两篇工作相关,区别是什么?

BERT 是在 GPT 和 ELMo 的基础上的改动。

摘要第二段:BERT 的好处

simple and empirically powerful, 11 NLP 任务的SOTA, 绝对精度 + 相对精度(比别人好多少)

摘要写法:

第一段:我和另外 2 篇相关工作的区别,改进在哪里?

第二段:我的结果特别好,好在什么地方?

Note: BERT 论文写作好 --> 经典

工作质量:创新性、效果好 --> 经典

3导言

导言第一段:本篇论文关注的研究方向的一些上下文关系

Language model pre-training 可以提升 NLP 任务的性能

NLP任务分两类:sentence-level tasks 句子情绪识别、两个句子的关系; token-level tasks NER (人名、街道名) 需要 fine-grained output

NLP 预训练很早之前存在,BERT 使 NLP 预训练 出圈了。

导言第二段:摘要第一段的扩充

pre-trained language representations 两类策略:

基于特征的 ELMo (构建和每一个下游任务相关的RNN 架构;训练好的特征(作为额外的特征) 和 输入 一起放进模型)

基于微调参数的 GPT

所有的权重参数根据新的数据集进行微调。

介绍别人工作的目的:铺垫自己方法的好

ELMo 和 GPT 预训练时 使用 unidirectional langugage model,使用相同的目标函数

语言模型是单向的、预测未来。不是给第 一句、第三句,预测第二句

导言第三段:

当前技术的局限性:标准语言模型是 unidirectional 单向的,限制了模型架构的选择。

GPT 从左到右的架构,只能将输入的一个句子从左看到右。句子情感分类任务:从左看到右、从右看到左 都应该是合法的。

token-level tasks:问答 qa 看完整个句子选答案,不是从左往右一步一步看。

如果能 incorporate context from both directions 看两方向的信息,能提升 任务性能。

相关工作的局限性,+ 解决局限性的想法 -- > 导言第四段: 如何解决?

BERT 通过 MLM 带掩码的语言模型 作为预训练的目标,来减轻 语言模型的单向约束。inspired by the Close task 1953

MLM 带掩码的语言模型做什么呢?

每次随机选输入的词源 tokens, 然后 mask 它们,目标函数是预测被 masked 的词;类似挖空填词、完形填空。

MLM 和 standard language model (只看左边的信息)有什么区别?

MLM 可以看 左右的上下文信息, pre-train deep bidirectional transformer 的基础。

BERT 除了 MLM 还有什么?

NSP: next sentence prediction

判断两个句子是随机采样的 or 原文相邻,学习 sentence-level 的信息。

文章 3点 贡献:

1 bidirectional 双向信息的重要性

GPT 只用了 unidirectional 信息;另外 Peter 2018 把从左看到右 和 从右看到左的模型独立训练 + shallow concatenation 拼在一起;BERT 在 bidirectional pre-training 的应用更好

2 BERT 首个 微调模型,在 sentence-level and token-level task效果好

好的预训练模型,不用对特定任务做一些模型架构的改动

3 BERT 开源,随便用。

4结论

近期实验表明,非监督的预训练模型很好,low-resource 任务也能享受 benefit from 深的神经网络。

本文贡献:拓展前任的结果到 deep bidirectional architectures,使同样的预训练模型能够处理大量的 NLP 任务

本文故事:

2个相关工作:ELMo 用了 bidirectional 信息,但架构 RNN 老;GPT 架构 Transformer 新,但只用了 unidirectional 信息。

BERT = ELMo 的 bidirectional 信息 + GPT 的新架构 transformer

How?

Language model 任务:不是预测未来,而是完形填空。

写作:两个算法的结合,主要工作 -- 证明 双向有用

A + B 缝合工作 or C 技术解决 D 领域的问题,不要觉得想法小、不值得写出来;简单朴实的写出来。简单好用 说不定会出圈 😄

5相关工作

2.1 Unsupervised Feature-based approaches

非监督的基于特征表示的工作:词嵌入、ELMo等

2.2 Unsupervised Fine-tuning approaches

非监督的基于微调的工作:GPT等

2.3 Transfer Learning from Supervised Data

在有标号的数据上做迁移学习。

NLP 有标号 的大数据集:natural language inference and machine translation

CV做的还不错,ImageNet 训练好、再做迁移。

NLP 表现不那么好:CV 和 NLP 任务的区别,NLP 数据的不足。

BERT 的作用:

NLP 中,在无标号的大量数据集上训练的模型效果 > 有标号、但数据量少一些的数据集上训练效果

CV 采用 BERT 的想法嘛?

Yes,在大量无标号的图片上训练的模型,可能比 有标号的 ImageNet 百万图片 效果更好。

6 BERT 模型

BERT 有哪两步?预训练 + 微调

pre-training: 使用 unlabeled data 训练

fine-tuning: 微调的 BERT 使用 预训练的参数 初始化,所有的权重参数通过 下游任务的 labeled data 进行微调。

每一个下游任务会创建一个 新的 BERT 模型,(由预训练参数初始化),但每一个下游任务会根据自己任务的 labeled data 来微调自己的 BERT 模型。

预训练和微调不是 BERT 的创新,CV里用的比较多。

作者关于预训练和微调的介绍 好吗?

好!如果假设读者都知道论文的技术,而只一笔带过(给Ref),不太好。论文写作要自洽,简单的说明就好,避免读者不知道预训练和微调,增加理解文章的障碍。

图 1 预训练 + 微调

img

预训练的输入:unlabelled sentence pair

训练 BERT 的权重

下游任务:创建同样的 BERT 的模型,权重的初始化值来自于 预训练好 的权重。

MNLI, NER, SQuAD 下游任务有 自己的 labeled data, 对 BERT 继续训练,得到各个下游任务自己的的 BERT 版本。

Model Architecture

multi-layer bidirectional Transformer encoder

一个多层双向 Transformer 的解码器,基于 transfomer 的论文和代码。

写作:第三章这里不讲可以;在第二章相关工作做一定的介绍, i.e., L H

模型调了哪 3 个参数?

L: transform blocks的个数

H: hidden size 隐藏层大小

A: 自注意力机制 multi-head 中 head 头的个数

调了 BERT_BASE (1亿参数)和 BERT_LARGE

(3.4亿参数)

img

Large 模型 层数 L 翻倍 12 -- 24;宽度 H 768 -- 1024

BERT 模型复杂度和层数 L 是 linear, 和宽度 H 是 平方关系。

因为 深度 变成了 以前的两倍,在宽度上面也选择一个值,使得这个增加的平方大概是之前的两倍。

H = 16,因为每个 head 的维度都固定在了64。因为你的宽度增加了,所以 head 数也增加了。

BERT_base 的参数选取 和 GPT 差不多,比较模型;BERT_large 刷榜。

超参数换算成可学习参数的大小,transformer架构的回顾

可学习参数的来源:嵌入层 30k * H、transformer块 L * H^2 * 12

嵌入层: 输入是词的字典大小 30k,输出是 H

参数:30k (字典大小) * H (hidden size)

img

嵌入层的输出会进入 transformer 块。

transformer blocks(H^2 * 12): self-attention mechanism (H^2 * 4)+ MLP(H^2 * 8)

self-attention mechanism 本身无可学习参数; multi-head self-attention mechanism 要对 q, k, v 做投影,每一次投影维度=64 --> A * 64 = H。

每一个 q, k, v 都有自己的投影矩阵,合并每个 head 的投影矩阵 --> q, k, v 分别的 H * H 矩阵。

得到输出后还会有一次 H * H 的投影。

Transformer block 里的 self-attention 可学习参数 = H^ 2 * 4

MLP 的 2个全连接层:

第一个全连接层输入是 H,输出是 4 * H;

第二个全连接层输入是 4 * H,输出是 H。

每一个参数矩阵大小 H * 4H,MLP 中的可学习参数 H^2 * 8

一个 transformer block 的参数量 H^2 * 12,L 个 blocks,L * H^2 * 12

Input/Output Representations

下游任务有处理一个句子 or 处理 2 个句子,BERT 能处理不同句子数量的下游任务,使输入可以是 a single sentence and a pair of sentences (Question answer)

a single sentence: 一段连续的文字,不一定是真正上的语义上的一段句子,它是我的输入叫做一个序列 sequence。

A "sequence" 序列可以是一个句子,也可以是两个句子。

BERT 的输入和 transformer 区别?

transformer 预训练时候的输入是一个序列对。编码器和解码器分别会输入一个序列。

BERT 只有一个编码器,为了使 BERT 能处理两个句子的情况,需要把两个句子并成一个序列。

BERT 如何切词?

WordPiece, 把一个出现概率低的词切开,只保留一个词出现频率高的子序列,30k token 经常出现的词(子序列)的字典。

否则,空格切词 --> 一个词是一个 token。数据量打的时候,词典会特别大,到百万级别。可学习的参数基本都在嵌入层了。

BERT 的输入序列如何构成? [ CLS ] + [ SEP ]

序列开始: [ CLS ] 输出的是句子层面的信息 sequence representation

BERT 使用的是 transformer 的 encoder,self-attention layer 会看输入的每个词和其它所有词的关系。

就算 [ CLS ] 这个词放在我的第一个的位置,他也是有办法能看到之后所有的词。所以他放在第一个是没关系的,不一定要放在最后。

区分 两个合在一起的句子 的方法:

  • 每个句子后 + [ SEP ] 表示 seperate

  • 学一个嵌入层 来表示 整个句子是第一句还是第二句

[ CLS ] [Token1] …… [Token n] [SEP] [Token1'] …… [Token m]

每一个 token 进入 BERT 得到 这个 token 的embedding 表示。

对于 BERT,输入一个序列,输出一个序列。

最后一个 transformer 块的输出,表示 这个词源 token 的 BERT 的表示。在后面再添加额外的输出层,来得到想要的结果。

img

For a given token, 进入 BERT 的表示 = token 本身的表示 + segment 句子的表示 + position embedding 位置表示

图 2 BERT 嵌入层

一个词源的序列 --> 一个向量的序列 --> 进入 transformer 块

Token embeddings: 词源的embedding层,整成的embedding层, 每一个 token 有对应的词向量。

Segement embeddings: 这个 token 属于第一句话 A还是第二句话 B。

Position embeddings: 输入的大小 = 这个序列最长有多长? i.e., 1024

Position embedding 的输入是 token 词源在这个序列 sequence 中的位置信息。从0开始 1 2 3 4 --> 1024

img

BERT input representation = token embeddings + segment embeddings + position embeddings

BERT 的 segment embedding (属于哪个句子)和 position embedding (位置在哪里)是学习得来的,transformer 的 position embedding 是给定的。

BERT 关于 pre-train 和 fine-tune 同样的部分

3.1 Pre-training BERT

预训练的 key factors: 目标函数,预训练的数据

Task 1 MLM

为什么 bidirectional 好? MLM 是什么?完形填空

img

由 WordPiece 生成的词源序列中的词源,它有 15% 的概率会随机替换成一个掩码。但是对于特殊的词源不做替换,i.e., 第一个词源 [ CLS ] 和中间的分割词源 [SEP]。

如果输入序列长度是 1000 的话,要预测 150 个词。

MLM 带来的问题:预训练和微调看到的数据不一样。预训练的输入序列有 15% [MASK],微调时的数据没有 [MASK].15% 计划被 masked 的词: 80% 的概率被替换为 [MASK], 10% 换成 random token,10% 不改变原 token。但 T_i 还是被用来做预测。

img

80%, 10%, 10% 的选择,有 ablation study in appendix

img

unchanged 和 微调中的数据应该是一样的。

Task 2 NSP Next Sentence Prediction

在问答和自然语言推理里都是句子对

如果 BERT 能学习到 sentence-level 信息,很棒。

输入序列有 2 个句子 A 和 B,50% 正例,50%反例

50% B 在 A 之后,50% 是 a random sentence 随机采样的。

img

正例:这个人要去一个商店,然后他买了一加仑的牛奶。IsNext

反例:这个人去了商店,然后企鹅是一种不能飞的鸟。NotNext

flight ## less, flightless 出现概率不高,WordPiece 分成了 2 个出现频率高的子序列,## 表示 less 是 flightless 的一部分。

Pre-training data

2 个数据集:BooksCorpus (800 M) + English Wikipedia (2500 M)

使用一篇一篇文章,而不是随机打断的句子。 a document-level corpus rather than a shuffled sentence-level corpus

transformer 可以处理较长的序列,一整个文本的输入,效果会好一些。

3.2 Fine-tuning BERT

用 BERT 做微调的一般化的介绍。

BERT 和一些基于encoder-decoder的架构为什么不一样?transformer 是encoder-decoder。

整个句子对被放在一起输入 BERT,self-attention 能够在两个句子之间相互看。BERT 更好,但代价是 不能像 transformer 做机器翻译。

在encoder-decoder的架构,编码器看不到解码器的东西。

BERT 做 下游任务

根据下游任务,设计我们任务相关的输入和输出。

img

好处:模型不怎么变,加一个输出层 softmax 得到 标号 label

怎么样把输入改成想要的句子对?

  • 有两个句子的话,当然就是句子 A 和 B。

  • 只有一个句子的话,要做句子分类的话, B 没有。根据下游任务的要求,要么是 [CLS] representation is fed into an output layer for classification 拿到第一个词源 [CLS] 对应的输出做分类 such as entailment or sentiment analysis,或者是 the token representations are fed into an output layer for token-level tasks 拿到对应那些词源的输出做 sequence tagging or question answering 输出。

微调比预训练便宜。TPU 1 hour, GPU a few hours.

Section 4 具体对每一个下游任务是怎么样构造输入输出

7实验

4.1 GLUE General Language Understanding Evaluation

  • 多个数据集

  • sentence-level tasks

[CLS] 的 BERT 输出表示 + 一个输出层 W,softmax 分类得到 label

log(softmax(CW^T)

img

表1 是 BERT 在 分类任务的表现

img

4.2 SQuAD v1.1

Standford Question Answering Dataset

QA 问答:给一段文字,问一个问题,摘录答案。--> 判断答案的开始和结尾。

对每个词源 token,判断是不是答案的开始or结尾

学 2 个向量 S 和 E,分别对应这个词源 token 是答案开始词的概率 和 是答案结尾词的概率。

img

具体计算 每个 token 是答案开始的概率,结尾词类似 E。

S 和 第二句话的每个词源 token 相乘 + softmax,得到归一化的概率。

P_i = e ^ ( S * T_i ) / \sigma_j ( e ^ ( S * T_j ) )

本文微调时,数据扫三遍,epochs = 3, lr = 5e-5, batch_size = 32

大家实验发现:用 BERT 做微调的时候,结果非常不稳定。同样的参数,同样的数据集,训练 10 遍,variance 方差特别大。

其实很简单,epochs 不够,3 太小了,可能要多学习几遍会好一点。

adam 的不完全版 在长时间训练的 BERT 没问题,训练时间不够,需要 adam 的完全版。

4.3 SQuAD v2.0 表现也很不错

4.4 SWAG

Situations With Adversarial Generations 判断两个句子之间的关系,BERT 和之前的训练没多大区别,效果好。

总结:BERT 在不一样的数据集上,用起来很方便,效果很好。

输入表示成“一对句子的形式”,最后拿到 BERT 对应的输出,然后加一个输出层 softmax,完事了。

BERT 对 NLP 整个领域的贡献非常大,有大量的任务用一个相对简单、只改数据输入形式和最后加一个输出层,就可以效果很不错。

5 Ablation studies

看 BERT 每一个组成部分的贡献。

img

没有 NSP

LTR 从左看到右(无 MLM ) & 没有 NSP

LTR 从左看到右(无 MLM ) & 没有 NSP + BiLSTM (从ELMo来的想法)

去掉任何一个组成部分,BERT的效果都会有打折,特别是 MRPC。

5.2 Effect of Model Size

BERT_base 110 M 可学习参数

BERT_large 340 M 可学习参数

NLP界认为 模型越大,效果越好。BERT 首先证明了大力出奇迹,引发了模型“大”战

现在:GPT-3 1000 亿可学习参数

5.3 Feature-based Approach with BERT

没有微调的 BERT,将pre-trained 得到的 BERT 特征作为一个静态的特征输入,效果没有 + 微调好

卖点:用 BERT 需要微调。

8评论

写作:

  • 先写 BERT 和 ELMo (bidirectional + RNN)、GPT (unidirectional + transformer) 的区别

  • 介绍 BERT 模型

  • BERT 实验设置、效果好

  • 结论突出 'bidirectional' 贡献

文章 1个卖点,容易记。

但 BERT 是否要选择 'bidirectional' 双向性呢?

可以写,但也要写 双向性带来的不足是什么?

选择有得有失。

GPT 用的是 decoder

BERT 用的是 encoder,不好做generative tasks:机器翻译、文本摘要。

分类问题在 NLP 更常见。

NLP 研究者喜欢 BERT,较容易的应用在 NLP 中自己想解决的问题。

BERT,完整的解决问题的思路 ---- 大家对 DL 的期望

训练一个很深、很宽的模型,在一个很大的数据集上预训练好;训练好的模型参数可以解决很多小的问题,通过微调提升小数据集上的性能。

这个模型拿出来之后可以用在很多小的问题上,能够通过微调来全面提升这些小数据上的性能。这个在计算机视觉里面我们用了很多了。

BERT 把 CV 的套路搬到了 NLP,1个3亿参数的模型,展示:模型越大、效果越好。大力出奇迹。

为什么 BERT 被记住?

BERT 用了 ELMo, GPT 更大的训练数据集,效果更好;BERE 也被更大的训练数据集和更大的模型超越。

BERT 的引用率是 GPT 的 10 倍,影响力 ✔

Abstract

NLP在Bert之前一直没有一个深度神经网络训练好之后,可以解决大部分任务。用一句话来概括Bert,就是Bert是一个深的双向的Transformer,针对的是一般的语言理解任务。这里特别注意的点是“语言理解任务”和“Transformer”,因为“Transformer”的提出是针对于机器翻译的。

BERT的名字来自于"Bidirectional Encoder Representations for Transformer"。GPT考虑左边的信息预测未来,BERT是双向的;ELMO是基于RNN的架构,而BERT是Transformer,所以对于下游任务不需要做那么多的调整。

当讲一个东西好的时候,不仅要讲绝对精度是多少,还要说和其他的模型比,相对的优势是多少。

一种摘要的写法是:模型的定义+与其他模型的区别+你的模型的优势

Introduction

使用预训练模型做特征表示一般有两类方法:基于特征的,比如ELMO;另外一种是基于微调的,比如GPT,把预训练的模型放到下游的时候根据新的数据集微调。这两个途径都是使用相同的目标函数,都是用一个单向的语言模型(说一句话,预测下一句话)。

现在的技术的问题是语言模型是单向的,如果要做句子层面的分析的话,如果从左看到右外,还可以从右看到左,是可以提升性能的。

带掩码的语言模型随机挖去一些字元,然后允许看左右信息,并进去填空,也就是完形填空。另一个是下一句预测,随机采样两个句子,判断这两个句子是否是相邻的。这两个任务解决了“双向”的问题。

Related Work

词嵌入、ELMO、GPT、有标号数据上的迁移学习

BERT

Bert有两个步骤:预训练和微调。

  • 预训练:模型在没有标号的数据上训练

  • 微调:权重初始化为预训练中得到的权重,所有权重在微调的时候都会被参与训练,用的是有标号的数据,所有的下游任务都会创建一个新的Bert模型

写论文的时候,对于引用的方法需要做一些简短的说明,以防止给大家的阅读造成困难。

BERT模型的Transformer的层是L,隐藏层大小是H,自注意力头是A。

BERT_{BASE}(L=12,H=768,A=12) 。模型的可学习参数主要来自嵌入层和Transformer块 。嵌入层就是一个矩阵,嵌入层的输入是字典的大小(这里是30K),输出是隐层单元的大小,隐层单元是Transformer的输入。头的个数A乘以64等于H。在Transformer中,首先K、Q、V都是HH的矩阵,然后输出矩阵的大小也是HH,后面的MLP层是两个H^2*8的矩阵,一共有L层的Transformer,所以一共有30K\times H+L\times H^2\times 12 = 110M大小的参数。

Bert的输入可以是一个句子,也可以是一个句子对。Transformer训练的时候输入是一个序列对,编码器和解码器分别会输入一个序列;而Bert只有编码器,所以如果是两个句子,需要合并成一个序列。使用WordPiece词嵌入的想法是如果一个词在整个里面出现概率不大的话,应该切开看子序列,这个子序列可能是词根,出现次数很大。序列的第一个词永远是[CLS],表示classification,代表Bert最后的输出代表整个序列的信息。两个句子的合并用[SEP]区分。词嵌入的输入=词元的向量(token embeddings) +segement embedding(在哪个句子)+ 位置的嵌入(position embedding)。

Pre-training BERT

Masked LM

对于一个输入的语言序列,15%的词元会被替换成掩码。但是问题在于在预训练的时候会有15%的词用[MASK]替换,但是微调的时候是没有[MASK]的,所以两个阶段看到的数据不一样。解决方案是:对于这15%的被[MASK]替换的词,80%真的替换成[MASK],10%替换成随机词元,还有10%什么都不干。

第一点中的替换,是 Masked LM 中的主要部分,可以在不泄露 label 的情况下融合真双向语义信息;

第二点的随机替换,因为需要在最后一层随机替换的这个 token 位去预测它真实的词,而模型并不知道这个 token 位是被随机替换的,就迫使模型尽量在每一个词上都学习到一个 全局语境下的表征,因而也能够让 BERT 获得更好的语境相关的词向量(这正是解决一词多义的最重要特性);

第三点的保持不变,也就是真的有 10% 的情况下是 泄密的(占所有词的比例为15% * 10% = 1.5%),这样能够给模型一定的 bias ,相当于是额外的奖励,将模型对于词的表征能够拉向词的真实表征(此时输入层是待预测词的真实 embedding,在输出层中的该词位置得到的embedding,是经过层层 Self-attention 后得到的,这部分 embedding 里多少依然保留有部分输入 embedding 的信息,而这部分就是通过输入一定比例的真实词所带来的额外奖励,最终会使得模型的输出向量朝输入层的真实 embedding 有一个偏移)。

而如果全用 mask 的话,模型只需要保证输出层的分类准确,对于输出层的向量表征并不关心,因此 可能会导致最终的向量输出效果并不好。

Next Sentence Prediction(NSP)

50%是正例,50%是负例。

Pre-training data

用文本级别的数据会比较好

Fine-tunning BERT

BERT和encoder-decoder架构相比,由于把两个句子结合在一起,所以self-attention可以看到全部的东西,而encoder-decoder架构中,encoder通常看不到decoder的东西。

Experiment

本部分讲述BERT如何应用于各种下游任务。

GLUE

把[CLS]词元最后的向量拿出来,学习输出层W,用softmax(CW^T)得到标号,即为多分类问题。

SQuAD

对于每个词元判断是否是答案的开头或者结尾,具体而言,学习两个向量S和E,分别代表词元是答案开始和结尾的概率。

提问环节

Bert 采用哪种Normalization结构,LayerNorm和BatchNorm区别,LayerNorm结构有参数吗,参数的作用?

采用LayerNorm结构,和BatchNorm的区别主要是做规范化的维度不同,BatchNorm针对一个batch里面的数据进行规范化,针对单个神经元进行,比如batch里面有64个样本,那么规范化输入的这64个样本各自经过这个神经元后的值(64维),LayerNorm则是针对单个样本,不依赖于其他数据,常被用于小mini-batch场景、动态网络场景和 RNN,特别是自然语言处理领域,就bert来说就是对每层输出的隐层向量(768维)做规范化,图像领域用BN比较多的原因是因为每一个卷积核的参数在不同位置的神经元当中是共享的,因此也应该被一起规范化。

这里补充BN与LN的区别:

img

如何优化BERT效果?

1 感觉最有效的方式还是数据。

2 把现有的大模型ERNIE_2.0_large, Roberta,roberta_wwm_ext_large、roberta-pair-large等进行ensemble,然后蒸馏原始的bert模型,这是能有效提高的,只是操作代价比较大。

3 BERT上面加一些网络结构,比如attention,rcnn等,个人得到的结果感觉和直接在上面加一层transformer layer的效果差不多,模型更加复杂,效果略好,计算时间略增加。

4 改进预训练,在特定的大规模数据上预训练,相比于开源的用百科,知道等数据训练的更适合你的任务(经过多方验证是一种比较有效的提升方案)。以及在预训练的时候去mask低频词或者实体词(听说过有人这么做有收益,但没具体验证)。

5 文本对抗

如果是中文,还有做wordpiece的必要吗?

使用jieba分词。

参考文献

[1]transformer、bert、ViT常见面试题总结 - 简书

[2]https://zhuanlan.zhihu.com/p/151412524

[3]BERT 论文逐段精读【论文精读】_哔哩哔哩_bilibili

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/873712.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

网络层协议-ARP协议

网络层协议-ARP协议 1)概述 ARP:地址解析协议,作用:根据IP地址查询MAC地址 数据包发送前需要进行封包,在数据链路层需要封装源mac地址是自己的mac,目的mac地址是别人,但是不知道别人的mac地址…

基于VUE的校园二手物品交易管理系统的设计与实现 (含源码+sql+视频导入教程)

👉文末查看项目功能视频演示获取源码sql脚本视频导入教程视频 1 、功能描述 基于VUE的校园二手物品交易管理系统8拥有两种角色 管理员:闲置物品管理、订单管理、用户管理 用户:登录注册、购物车、发布闲置物品、评论、发货、收货地址管理等…

AI在医学领域:MIL回归用于前列腺癌复发预测

2024年,全球男性新癌症病例预计为1029080例,其中前列腺癌病例预计为29%。前列腺癌是男性中第二常见的癌症类型,仅次于肺癌。它主要影响老年男性,且发病率随年龄增长而增加。前列腺癌的主要治疗方法是前列腺切除术,但术…

探索手势能够识别在训练数据中未观察到的情绪

介绍 论文地址:https://arxiv.org/pdf/2202.10571.pdf 基于人工智能的情感识别研究领域是各个领域不可或缺的,如机器人和情感计算,并在语音中使用面部表情和手势来实现人们提出了各种方法来识别一个人的情绪。然而,这些基于机器学…

C语言 | Leetcode C语言题解之第391题完美矩形

题目: 题解: /* 参照官方答案题解: 1.小矩形面积之和等于大矩形区域面积 2.矩形区域内部顶点出现次数只能是2次或4次(边界四个顶点只能出现一次) */ typedef struct {int x;int y; } Coordinate;typedef struct {Coor…

JavaWeb(后端)

Spring-MVC Spring MVC(Model-View-Controller)是Spring框架中的一个模块,用于构建基于MVC设计模式的Web应用程序。Spring MVC将应用程序分为三个主要部分: Model:负责处理数据和业务逻辑。View:负责展示…

Rancher 与 Kubernetes(K8s)的关系

1. 简介 1.1 Kubernetes 作为容器编排平台 Kubernetes 是一个开源平台,用于自动化部署、扩展和管理容器化的应用。它提供了容器调度、自动伸缩、健康检查、滚动更新等功能。 例子:假设您有一个微服务架构的应用程序,需要运行在多个节…

单例的饿汉式,懒汉式的线程安全问题

1 单例的饿汉式 对象在类加载的时候就创建了,线程安全,速度块,但是浪费空间, public class Hungry {//唯一对象private static final Hungry HUNGRY new Hungry();byte byte1[]new byte[1024];byte byte2[]new byte[1024];byte…

openSSL 如何降版本

文章目录 前言openSSL 如何降版本1. 卸载2. 安装新的openssl版本3. 验证 前言 如果您觉得有用的话,记得给博主点个赞,评论,收藏一键三连啊,写作不易啊^ _ ^。   而且听说点赞的人每天的运气都不会太差,实在白嫖的话&…

DDS-数据分发服务

目录 1.ROS2架构 2.DDS概念 参考资料 1.ROS2架构 在ROS 2(Robot Operating System 2)中,系统通常由以下几个核心部分组成,它们共同构成了ROS 2的架构和功能: Plumbing(管道): 这个术语在ROS …

Oracle OCP认证值得考吗? 需要门槛吗?

随着数据量的爆炸性增长和企业对数据依赖性的提升,对数据库专业人士的需求也在不断上升。OCP认证,作为Oracle公司提供的权威认证之一,长期以来被视为数据库专业人士技能和知识水平的重要标志。 但随着技术的发展和认证种类的增多,…

快速解决git am冲突

前言 当希望通过git am xxxx.patch,添加一些代码修改,如果代码版本相差较大,就可能产生冲突。 这种必须要我们手动修改冲突内容。 解决过程 1. git am 尝试打入patch补丁 git am 0004-patch.patch2. git apply --reject生成冲突文件 执行…

uniapp设置微信小程序的交互反馈

链接:uni.showToast(OBJECT) | uni-app官网 (dcloud.net.cn) 设置操作成功的弹窗: title是我们弹窗提示的文字 showToast是我们在加载的时候进入就会弹出的提示。 2.设置失败的提示窗口和标签 icon:error是设置我们失败的logo 设置的文字上…

keil安装及运行第一个stm32程序

前言 记录如何安装keil软件及运行第一个stm32程序 目录 一、keil开发环境搭建 0.keil是什么 1.keil下载 2.keil软件安装 3.安装芯片支持包 4.破解激活 二、keil工程结构 1.创建目录结构 2.新建工程 3.配置项目 (1).例程准备 (2).工程目录管理 (3).选项配置 4.例…

渗透测试学习资源

burp学院 https://portswigger.net/burp/documentation/desktop/getting-started https://portswigger.net/web-security/ hacker101学院 https://www.hacker101.com/ https://github.com/bugcrowd/bugcrowd_university 如何白嫖自学网络安全技术,最稳最推荐的网…

CGAL 概念模型及Traits 概述

CGAL 概念模型及Traits 本节释了概念Concepts 、模型Models以及Traits类的含义。 CGAL Concepts and Models 概念Concepts是对类型的一组要求,即它具有特定的嵌套类型、特定的成员函数或具有特定的以该类型为参数的自由函数。概念的模型 Models是一个满足概念需求…

购买磨轮平衡机时应该注意什么问题和技巧

在购买磨轮平衡机时,您应该注意以下几个关键点: 平衡精度 平衡精度是衡量平衡机性能的核心指标,直接影响到不平衡量的检测与校准的准确性,从而决定磨轮的振动和噪声水平。高精度的平衡机能显著减少振动和噪声,提高磨…

IEEE投稿模板翻译

>将这一行替换为您的稿件id号(双击此处编辑)< IEEE 期刊和会议论文的撰写准备&#xff08;2022&#xff09; 第一作者 A. 作者&#xff0c;IEEE成员&#xff0c;第二作者 B. 作者&#xff0c;第三作者 C. 作者 Jr.&#xff0c;IEEE成员 摘要—本文档为IEEE会刊、期刊和…

推荐一个Python流式JSON处理模块:streaming-json-py

每天&#xff0c;我们的设备、应用程序和服务都在生成大量的数据流&#xff0c;这些数据往往大多是以JSON格式存在的。 如何高效地解析和处理这些JSON数据流是一大挑战。今天&#xff0c;我要为大家介绍一个能极大简化这一过程的利器&#xff1a;streaming-json-py streaming…

负载均衡调度器--LVS

文章目录 集群和分布式集群分布式 LVS介绍LVS特点LVS工作原理LVS集群架构 LVS集群中的术语CIPVIPRSDIPRIP LVS集群的工作模式NAT模式DR模式DR的工作原理DR的特点:DR的网络配置1.配置负载均衡器2.配置后端服务器lo接口的作用 3.测试连接&#xff1a; DR的典型应用场景 TUN模式 L…