【LLM 】7个基本的NLP模型，为ML应用程序赋能

【LLM 】7个基本的NLP模型，为ML应用程序赋能

article2024/12/27 15:46:54/文章来源:https://blog.csdn.net/jiagoushipro/article/details/135322382

An overview of the 7 NLP models.

在上一篇文章中，我们已经解释了什么是NLP及其在现实世界中的应用。在这篇文章中，我们将继续介绍NLP应用程序中使用的一些主要深度学习模型。

BERT

来自变压器的双向编码器表示（BERT）由Jacob Devlin在2018年的论文《BERT:用于语言理解的深度双向变压器的预训练》中首次提出。
BERT模型的主要突破是，它在训练过程中查看文本时，以双向方式扫描文本，而不是从左到右或从左到左和从右到左的组合序列。
BERT一般有两种类型：BERT（基本）和BERT（大）。不同之处在于可配置参数：基本参数为1100万，大参数为3.45亿。

XLNet

XLNet于2019年发表在论文《XLNet：语言理解的广义自回归预训练》中。
XLNet在20次基准测试中以很大的优势优于BERT，因为它利用了自回归模型和双向上下文建模的最佳效果。XLNet采用了一种新提出的建模方法，称为“置换语言建模”。
与基于前一个标记的上下文预测句子中单词的语言模型中的传统标记化不同，XLNet的置换语言建模考虑了标记之间的相互依赖性。
XLNet的性能测试结果比BERT提高了2-15%。

RoBERTa

RoBERTa是在2019年的论文《RoBERTa：一种稳健优化的BERT预训练方法》中提出的。
RoBERTa对BERT的体系结构和培训程序进行了更改。具体而言，RoBERTa删除了下一句预测（NSP）目标，使用了比BERT大得多的数据集，并用动态掩蔽取代了静态掩蔽。
RoBERTa的性能测试结果比BERT提高了2-20%。

ALBERT

ALBERT模型是在2019年的论文《ALBERT:语言表征自我监督学习的精简BERT》中提出的。
ALBERT是在BERT模型的基础上开发的。它的主要突破是显著降低了参数，但与BERT相比保持了相同的性能水平。
在ALBERT中，参数在12层变压器编码器之间共享，而在原始BERT中每层编码器都有一组唯一的参数。

StructBERT

StructBERT是在2019年的论文《StructBERT:将语言结构纳入深度语言理解的预训练》中提出的。
StructBERT通过将语言结构纳入训练过程，进一步扩展了BERT。
StructBERT还引入了单词结构目标（WSO），它有助于模型学习单词的排序。

T5

T5是在2019年的论文《用统一的文本到文本转换器探索迁移学习的极限》中介绍的。T5是“文本到文本传输转换器”的缩写。
T5发布了一个干净、庞大、开源的数据集C4（Colossal clean Crawled Corpus）。
T5将所有NLP任务分类为“文本到文本”任务。
T5型号有五种不同尺寸，每种型号都有不同数量的参数：T5小型（6000万个参数）、T5基础（2.2亿个参数），T5大型（7.7亿个参数。

ELECTRA

ELECTRA是在2020年的论文“ELECTRA:将文本编码器预训练为鉴别器而非生成器”中提出的。
ELECTRA提出了一种新的预训练框架，它结合了生成器和鉴别器。
ELECTRA将掩蔽语言模型的训练方法改为替换标记检测。
ELECTRA在小型模型上表现更好。

本文：【LLM 】7个基本的NLP模型，为ML应用程序赋能 | 开发者开聊

自我介绍

做一个简单介绍，酒研年近48 ，有20多年IT工作经历，目前在一家500强做企业架构．因为工作需要，另外也因为兴趣涉猎比较广，为了自己学习建立了三个博客，分别是【全球IT瞭望】，【架构师研究会】和【开发者开聊】，有更多的内容分享，谢谢大家收藏。
企业架构师需要比较广泛的知识面，了解一个企业的整体的业务，应用，技术，数据，治理和合规。之前4年主要负责企业整体的技术规划，标准的建立和项目治理。最近一年主要负责数据，涉及到数据平台，数据战略，数据分析，数据建模，数据治理，还涉及到数据主权，隐私保护和数据经济。因为需要，比如数据资源入财务报表，另外数据如何估值和货币化需要财务和金融方面的知识，最近在学习财务，金融和法律。打算先备考CPA，然后CFA，如果可能也想学习法律，备战律考。
欢迎爱学习的同学朋友关注，也欢迎大家交流。全网同号【架构师研究会】

欢迎收藏【全球IT瞭望】，【架构师酒馆】和【开发者开聊】.

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：/a/283210.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！

相关文章

C/C++ 函数重载

C/C++ 函数重载

函数多态是C在C语言的基础新增的功能。默认参数能够使用不同数目的参数调用同一个函数，而函数多态(函数重载)让您能够使用多个同名的函数。术语“多态”指的是有多种形式，因此函数多态允许函数可以有多种形式。类似地，术语“函数重载”指的是…

阅读更多...

【时钟】分布式时钟HLC|Logical Time|Vector Clock|True Time

【时钟】分布式时钟HLC|Logical Time|Vector Clock|True Time

目录简略详细附录 1 分布式系统不能使用NTP的原因简略分布式系统中不同于单机系统不能使用NTP(网络时间协议（Network Time Protocol）)来获取时间，所以我们需要一个特别的方式来获取分布式系统中的时间，mvcc也是使用time保证读…

阅读更多...

2024最全面且有知识深度的web3开发工具、web3学习项目资源平台

2024最全面且有知识深度的web3开发工具、web3学习项目资源平台

在Web3技术迅速发展的时代，寻找一个综合且深入的Web3开发工具和学习项目资源平台变得至关重要。今天，我将向大家介绍一个非常有价值的网站，它就是https://web3x.world 。 Web3X是一个全面而深入的Web3开发者社区，为开发者们提供了…

阅读更多...

最优化方法Python计算：无约束优化应用——神经网络回归模型

最优化方法Python计算：无约束优化应用——神经网络回归模型

人类大脑有数百亿个相互连接的神经元（如下图(a)所示），这些神经元通过树突从其他神经元接收信息，在细胞体内综合、并变换信息，通过轴突上的突触向其他神经元传递信息。我们在博文《最优化方法Python计算：无约…

阅读更多...

跳跃表原理及实现

跳跃表原理及实现

一、跳表数据结构跳表是有序表的一种，其底层是通过链表实现的。链表的特点是插入删除效率高，但是查找节点效率很低，最坏的时间复杂度是O(N)，那么跳表就是解决这一痛点而生的。为了提高查询效率，我们可以给链表加上索…

阅读更多...

打破成本壁垒，免费SSL证书为中小企业保驾护航

打破成本壁垒，免费SSL证书为中小企业保驾护航

HTTPS，这个曾经看似遥远的技术词汇，如今已与我们每个人的网络生活息息相关。而实现HTTPS加密传输的关键一环——SSL证书，正以其独特的安全性能，为网站筑起一道坚实的防护墙。更令人惊喜的是，免费SSL证书服务已经到来&a…

阅读更多...

数据结构与算法教程，数据结构C语言版教程！（第二部分、线性表详解：数据结构线性表10分钟入门）三

数据结构与算法教程，数据结构C语言版教程！（第二部分、线性表详解：数据结构线性表10分钟入门）三

第二部分、线性表详解：数据结构线性表10分钟入门线性表，数据结构中最简单的一种存储结构，专门用于存储逻辑关系为"一对一"的数据。线性表，基于数据在实际物理空间中的存储状态，又可细分为顺序表&#xff…

阅读更多...

自动化网络故障修复管理

自动化网络故障修复管理

什么是故障管理故障管理是网络管理的组成部分，涉及检测、隔离和解决问题。如果实施得当，网络故障管理可以使连接、应用程序和服务保持在最佳水平，提供容错能力并最大限度地减少停机时间。专门为此目的设计的平台或工具称为故障管理系统。 …

阅读更多...

JavaScript setTimeout和setInterval的用法与区别详解

JavaScript setTimeout和setInterval的用法与区别详解

目录 I. 总述 II. setTimeout()函数 III. setInterval()函数 IV. 新年倒计时案例 Javascript的setTimeOut和setInterval函数应用非常广泛，它们都用来处理延时和定时任务，下面这篇文章主要给大家介绍了关于JavaScript setTimeout和setInterval的用法与…

阅读更多...

解决 Nginx 反向代理中的 DNS 解析问题：从挑战到突破20231228

解决 Nginx 反向代理中的 DNS 解析问题：从挑战到突破20231228

引言在使用 Nginx 作为反向代理服务器时，我们可能会遇到各种配置和网络问题。最近，我遇到了一个有趣的挑战：Nginx 在反向代理配置中无法解析特定的域名，导致 502 错误。这个问题的解决过程不仅揭示了 Nginx 的一个不太为人知的功…

阅读更多...

分布式【雪花算法】

分布式【雪花算法】

雪花算法背景：在分布式系统中，需要使用全局唯一ID，期待ID能够按照时间有序生成。 **原理：**雪花算法是 64 位的二进制，一共包含了四部分： 1位是符号位，也就是最高位，始终是0&am…

阅读更多...

MySQL存储过程、创建、调用、查看、删除、存储过程与函数的额区别、缺陷等、存储过程写分页等

MySQL存储过程、创建、调用、查看、删除、存储过程与函数的额区别、缺陷等、存储过程写分页等

MySQL存储过程 1、存储过程的定义2、存储过程使用的意义3、存储过程的创建4、存储过程的调用5、存储过程的查看6、存储过程的删除7、存储及过程与函数的区别8、存储过程的缺陷9、存储过程写分页 1、存储过程的定义存储过程：存储过程（Stored Procedure&…

阅读更多...

redis 从0到1完整学习（十二）：RedisObject 之 List 类型

redis 从0到1完整学习（十二）：RedisObject 之 List 类型

文章目录 1. 引言2. redis 源码下载3. redisObject 管理 List 类型的数据结构3.1 redisObject 管理 List 类型3.2 List PUSH 源码 4. 参考 1. 引言前情提要： 《redis 从0到1完整学习 （一）：安装&初识 redis》《redis 从0到1…

阅读更多...

pytest --collectonly 收集测试案例

pytest --collectonly 收集测试案例

pytest --collectonly 是一条命令行指令，用于在运行 pytest 测试时仅收集测试项而不执行它们。它会显示出所有可用的测试项列表，包括测试模块、测试类和测试函数，但不会执行任何实际的测试代码。这个命令对于查看项目中的测试结构和确保所有…

阅读更多...

千里马2023年终总结-android framework实战

千里马2023年终总结-android framework实战

背景： hi粉丝朋友们： 2023年马上就过去了，很多学员朋友也都希望马哥这边写个年终总结，因为这几个月时间都忙于新课程halsystracesurfaceflinger专题的开发，差点都忘记了这个事情了，今天特别花时间来写个bl…

阅读更多...

思维链COT原理探究

思维链COT原理探究

要进行因果分析，需要把思维链中的不同元素拆解开来，然后通过控制变量实验，来研究不同元素对COT效果的影响。以下两篇论文的核心差异就在于: COT的变量拆解，以及控制变量的实验方式。结合两篇论文的实验结论，可能导致…

阅读更多...

【深度学习：Convolutional Neural Networks】卷积神经网络入门指南

【深度学习：Convolutional Neural Networks】卷积神经网络入门指南

卷积神经网络（CNN）是深度学习领域最引人注目的成就之一。自从LeCun等人在20世纪90年代初引入以来，CNN在图像处理、视频分析和自然语言处理等领域取得了显著的成就。在这篇博客中，我们将探讨CNN的基本原理、结构和一些实际应用案例…

阅读更多...

实验3 vTPM相关

实验3 vTPM相关

一、实验目的 1.了解vTPM原理和相关知识；2.创建具备vTPM的虚拟机；3.加深对可信计算技术的理解。二、实验内容安装seabios，libtpms，swtpm，qemu‐tpm；启动vTPM；安装虚拟机。三、实验环境 …

阅读更多...

2013年第二届数学建模国际赛小美赛B题寄居蟹进化出人类的就业模式解题全过程文档及程序

2013年第二届数学建模国际赛小美赛B题寄居蟹进化出人类的就业模式解题全过程文档及程序

2013年第二届数学建模国际赛小美赛 B题寄居蟹进化出人类的就业模式原题再现： 寄居蟹是美国最受欢迎的宠物品种，依靠其他动物的壳来保护。剥去寄居蟹的壳，你会看到它柔软、粉红色的腹部卷曲在头状的蕨类叶子后面。大多数寄居蟹喜欢蜗牛壳&…

阅读更多...

Unity Window安装包制作

Unity Window安装包制作

Unity Window安装包制作介绍一、RAR自解压方式1、找到Unity打包的可执行程序2.创建自解压文件3.配置设置4、最后点击确定等待压缩完成即可（默认生成位置为你选中文件右键点击添加到压缩文件时的路径） 二、Setup Factory工具安装制作Window安装包相关常用…

阅读更多...

最新文章