NLP课程笔记-基于transformers的自然语言处理入门

NLP课程笔记-基于transformers的自然语言处理入门

article2024/12/28 17:27:30/文章来源:https://blog.csdn.net/adreammaker/article/details/139357436

@toc

项目地址

https://github.com/datawhalechina/learn-nlp-with-transformers/

2017年，Attention Is All You Need论文（Google Brain）首次提出了Transformer模型结构并在机器翻译任务上取得了The State of the Art(SOTA, 最好)的效果。
2018年，BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding （Google AI Language lab）使用Transformer模型结构进行大规模语言模型（language model）预训练（Pre-train），再在多个NLP下游（downstream）任务中进行微调（Finetune），一举刷新了各大NLP任务的榜单最高分，轰动一时。
2019年-2021年，研究人员将Transformer这种模型结构和预训练+微调这种训练方式相结合，提出了一系列Transformer模型结构、训练方式的改进（比如transformer-xl，XLnet，Roberta等等）。如下图所示，各类Transformer的改进不断涌现。

现在较为流行的基于transformer模型，基本你都可以在hugging/transformer库中找到并直接使用。

2.1 图解attention

问题：Attention出现的原因是什么？ 潜在的答案：基于循环神经网络（RNN）一类的seq2seq模型，在处理长文本时遇到了挑战，而对长文本中不同位置的信息进行attention有助于提升RNN的模型效果。

于是学习的问题就拆解为：1. 什么是seq2seq模型？2. 基于RNN的seq2seq模型如何处理文本/长文本序列？3. seq2seq模型处理长文本序列时遇到了什么问题？4.基于RNN的seq2seq模型如何结合attention来改善模型效果？

2.1.1 Seq2seq框架

seq2seq是一种常见的NLP模型结构，全称是：sequence to sequence，翻译为“序列到序列”。顾名思义：从一个文本序列得到一个新的文本序列。
典型的任务有：机器翻译任务，文本摘要任务。谷歌翻译在2016年末开始使用seq2seq模型，并发表了2篇开创性的论文。

首先看seq2seq干了什么事情？seq2seq模型的输入可以是一个（单词、字母或者图像特征）序列，输出是另外一个（单词、字母或者图像特征）序列。一个训练好的seq2seq模型如下图所示（注释：将鼠标放在图上，图就会动起来）：
在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：/a/664786.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！

相关文章

如何准确查找论文数据库？

如何准确查找论文数据库？

在学术研究过程中，查找相关论文是获取最新研究成果、支持自己研究的重要途径。准确查找论文数据库不仅可以节省时间，还能确保找到高质量的学术资源。本文将介绍一些有效的方法和策略，帮助您准确查找论文数据库。 1. 选择合适的数据库不同的…

阅读更多...

城市公共交通IC卡消费流程

城市公共交通IC卡消费流程

一，获取卡片信息 1,选择交通部电子钱包应用指令:00A4 + 04 + 00 + AID长度 + AID AID:A000000632010105 具体可参照城市公共交通IC卡技术规范第二部分应用指令选择命令部分 2,读取15文件公共信息基本文件指令:00B0 +9500 指令返回：公共信息基本文件具体可参照城…

阅读更多...

面向Java程序员的Go工程开发入门流程

面向Java程序员的Go工程开发入门流程

对于一个像我这样没有go背景的java程序员来说，使用go开发一个可用的程序的速度是肉眼可见的缓慢。其难点不在于go语言本身，而是搭建整个工程链路的过程，即所谓的“配环境”。本文主要讲述如何配出一个适合go开发的环境，以免有同…

阅读更多...

相对论真的很难理解吗？其实一点也不难，原理就在你我身边！

相对论真的很难理解吗？其实一点也不难，原理就在你我身边！

相对论，一个听起来就充满神秘色彩的名词，它在科学界的地位举足轻重，被誉为现代物理的基石。或许你并不了解相对论，但大概率应该听说过。不过对于大多数人来说，相对论似乎总是笼罩在一层难以穿透的迷雾之中&#xff0c…

阅读更多...

安装 Android Studio 2024.1.1.6（Koala SDK35）和过程问题解决

安装 Android Studio 2024.1.1.6（Koala SDK35）和过程问题解决

记录更新Android Studio版本及适配Android V应用配置的一些过程问题。安装包：android-studio-2024.1.1.6-windows.exe原版本：Android Studio23.2.1.23 Koala 安装过程 Uninstall old version 不会删除原本配置（左下角提示） Un…

阅读更多...

vue2+antv/x6实现er图

vue2+antv/x6实现er图

效果图安装依赖 npm install antv/x6 --save 我目前的项目安装的版本是antv/x6 2.18.1 人狠话不多，直接上代码 <template><div class"er-graph-container"><div ref"graphContainerRef" id"gr…

阅读更多...

dnsrecon一键开始负载平衡检测（KALI工具系列十四）

dnsrecon一键开始负载平衡检测（KALI工具系列十四）

目录 1、KALI LINUX简介 2、lbd工具简介 3、在KALI中使用lbd 3.1 测试目标域名是否存在负载不平衡 4、总结 1、KALI LINUX简介 Kali Linux 是一个功能强大、多才多艺的 Linux 发行版，广泛用于网络安全社区。它具有全面的预安装工具和功能集，使其成为…

阅读更多...

Unity之XR Interaction Toolkit如何使用XRSocketInteractable组件

Unity之XR Interaction Toolkit如何使用XRSocketInteractable组件

前言在虚拟现实（VR）和增强现实（AR）开发中，交互性是提升用户体验的关键。Unity作为一个领先的游戏开发引擎，提供了多种工具支持VR/AR开发。Unity的OpenXR插件扩展了这一功能，提供了更强大和灵活的交互系统。其中一个非常有用的组件是XRSocketInteractable。本文将详细介…

阅读更多...

Android VSYNC双Buffer与三Buffer渲染线程RenderThread（5）

Android VSYNC双Buffer与三Buffer渲染线程RenderThread（5） 手机自带的卡顿丢帧分析工具，柱状图： 帧的大体绘制过程： 帧绘制中的重要概念：BufferQueue 首先看一下 BufferQueue，BufferQueue 是一个…

阅读更多...

广告联盟如何实现

广告联盟如何实现

在互联网时代，各种广告形式无处不在，无论是在社交媒体、网站还是APP上，广告无处不在。然而，广告对于一些人来说并不只是一种干扰，还可以是一种赚钱方式。下载广告联盟看广告能赚钱吗?这是一个很有趣的问题&#xff0c…

阅读更多...

【Qt秘籍】[001]-从入门到成神-前言

【Qt秘籍】[001]-从入门到成神-前言

一、Qt是什么？[概念] Qt是一个跨平台的应用程序开发框架，简单来说，它是一套工具和库，帮助软件开发者编写可以在多种操作系统上运行的图形用户界面（GUI）应用程序。比如，你用Qt写了一个软件&#…

阅读更多...

Linux常用环境Docker安装

Linux常用环境Docker安装

一、mysql安装简单安装 docker run -d \--name mysql \-p 3306:3306 \-e TZAsia/Shanghai \-e MYSQL_ROOT_PASSWORD123 \mysql mysql容器本地挂载 cd /usr mkdir mysql cd mysql/ mkdir data mkdir conf mkdir init可以手动导入自己的数据库信息 docker run -d \--name mys…

阅读更多...

DALL-E 2：突破性人工智能图像生成技术的全方位解析

DALL-E 2：突破性人工智能图像生成技术的全方位解析

目录引言一、技术背景 1.1 生成对抗网络（GAN） 1.2 变分自动编码器（VAE） 1.3 GPT-3 和自然语言处理 1.4 DALL-E 的诞生二、DALL-E 2 的模型架构 2.1 模型概述 2.2 CLIP 的作用 2.3 DALL-E 2 的生成过程 2.4 模型训练 …

阅读更多...

ADB安装教程

ADB安装教程

1 adb简介 Android 调试桥 (adb) 是一种功能多样的命令行工具，可让您与设备进行通信。 adb命令可用于执行各种设备操作，例如安装和调试应用。 adb 提供对 Unix shell（可用来在设备上运行各种命令）的访问权限。它是一种客户端-服务…

阅读更多...

苏州金龙客车为新疆哪吒车队提供车辆交车

苏州金龙客车为新疆哪吒车队提供车辆交车

2024年旅游旺季提前到来、时间延长，新疆旅游市场有望延续去年火爆态势。近期，新疆哪吒运输服务有限公司（以下简称“哪吒车队”）订购的最新一批10辆苏州金龙海格高端旅游大巴在苏州金龙厂区正式交付。哪吒车队负责人伍亚丽笑容满…

阅读更多...

RabbitMQ-发布/订阅模式

RabbitMQ-发布/订阅模式

1、发布/订阅模式介绍在普通的生产者、消费者模式，rabbitmq会将消息依次传递给每一个消费者，一个worker一个，平均分配，这就是Round-robin调度方式，为了实现更加复杂的调度，我们就需要使用发布/订阅的方式…

阅读更多...

【linux】开机调用python脚本

【linux】开机调用python脚本

linux中，可以使用crontab 设置开机自动调用 crontab的安装在前面文章里写过了，不再重复首先，还是进入crontab配置文件 crontab -e 进入之后，跟其他定时任务不同，只需要在时间配置那里用rebooot 这类之后的两个文件的…

阅读更多...

qwen-moe

qwen-moe

一、定义 qwen-moe 代码讲解， 代码qwen-moe与Mixtral-moe 一样， 专家模块qwen-moe 开源教程Mixture of Experts (MoE) 模型在Transformer结构中如何实现，Gate的实现一般采用什么函数？ Sparse MoE的优势有哪些？MoE是如…

阅读更多...

NFTScan 获 Google Cloud 战略支持！

NFTScan 获 Google Cloud 战略支持！

近日，NFT 数据基础设施服务商 NFTScan 获得全球领先云计算服务提供商 Google Cloud 战略支持。未来，双方将在链上数据和区块链领域展开战略合作，高效联动，共同探索区块链技术的更多可能性，为用户和行业带来更多惊喜与成…

阅读更多...

强烈推荐十款数据防泄密软件，高人气的数据防泄密软件

强烈推荐十款数据防泄密软件，高人气的数据防泄密软件

100G的文件不见了？客户的电话信息被拷贝走了？源代码被竞争对手搞到手了？这些都是严重的数据泄密事件，为此，我们需要数据防泄密软件来全方位保护数据安全。根据当前市场上的热门推荐和综合评价，以下几款数据…

阅读更多...

最新文章