基于 pytorch 的手写 transformer + tokenizer

article2025/3/13 11:20:49/文章来源:https://blog.csdn.net/SP_FA/article/details/129624740

先放出 transformer 的整体结构图，以便复习，接下来就一个模块一个模块的实现它。
在这里插入图片描述

1. Embedding

在这里插入图片描述

Embedding 部分主要由两部分组成，即 Input Embedding 和 Positional Encoding，位置编码记录了每一个词出现的位置。通过加入位置编码可以提高模型的准确率，因为同一个词出现在不同位置可能代表了不同意思，这直接影响了最终的结果，所以要考虑位置因素。

位置编码公式：

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：/a/1075.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！

Web3中文｜政策影响下的新加坡Web3步伐喜忧参半

如果说“亚洲四小龙”是新加坡曾经的荣耀，那么当时代进入21世纪的第二个十年，用新加坡经济协会（SEE）副主席、新加坡新跃社科大学教授李国权的话来说，新加坡现在的“荣耀”是全球金融的主要“节点”或区块链行业发展的关…

单片机能运行操作系统吗？

先直接上答案：可以！但是操作系统不是刚需，上操作系统比较占用单片机的资源，比如占用比较多的FLASH和RAM，间接增加了硬件成本，哪怕成本增加1毛钱，对于上量的产品，分分钟是一个工程师的…

【ChatGPT】论文阅读神器 SciSpace 注册与测试

【ChatGPT】论文阅读神器 SciSpace 注册与测试1. 【SciSpace】网址与用户注册1.1 官网地址：[【SciSpace官网】https://typeset.io](https://typeset.io)1.2 官网注册2. 【SciSpace】实战解说2.1 导入论文2.2 论文分析2.3 中文分析2.4 论文分析进阶2.5 公式表格分析3…

没有关系的话，那就去建立关系吧

今天给大家分享一道链表的好题--链表的深度拷贝，学会这道题，你的链表就可以达到优秀的水平了。力扣先来理解一下题目意思，即建立一个新的单向链表，里面每个结点的值与对应的原链表相同，并且random指针也要指向新链表中…

Maven聚合开发【实例详解---5555字】

目录一、Maven聚合开发_继承关系二、Maven聚合案例 1. 搭建dao模块 2. 搭建service模块 3. 搭建web模块 4. 运行项目一、Maven聚合开发_继承关系 Maven中的继承是针对于父工程和子工程。父工程定义的依赖和插件子工程可以直接使用。注意父工程类型一定为POM类型工程…

vue的diff算法？

文章目录是什么比较方式原理分析Diff算法的步骤：首尾指针法比对顺序：是什么 diff 算法是一种通过同层的树节点进行比较的高效算法其有两个特点： 比较只会在同层级进行, 不会跨层级比较在diff比较的过程中，循环从两边向中间比较…

2023年网络安全趋势

数据安全越来越重要。我国《数据安全法》提出“建立健全数据安全治理体系”，各地区部门均在探索和简历数据分类分级、重要数据识别与重点保护制度。数据安全治理不仅是一系列技术应用或产品，更是包括组织构建、规范制定、技术支撑等要素共同完成数据…

【FPGA-Spirit_V2】小精灵V2开发板初使用

🎉欢迎来到FPGA专栏~小精灵V2开发板初使用 ☆* o(≧▽≦)o *☆嗨~我是小夏与酒🍹 ✨博客主页：小夏与酒的博客 🎈该系列文章专栏：FPGA学习之旅文章作者技术和水平有限，如果文中出现错误，希望大家…

Kaggle实战入门：泰坦尼克号生生还预测

Kaggle实战入门：泰坦尼克号生生还预测1. 加载数据2. 特征工程3. 模型训练4. 模型部署泰坦尼克号（Titanic），又称铁达尼号，是当时世界上体积最庞大、内部设施最豪华的客运轮船，有“永不沉没”的美誉&#xff…

Spring-Kafka 发送消息的两种写法

文章目录前言写法一：发送的消息对象是字符串1 创建项目2 项目结构3 application.yml 配置文件4 生产者 KafkaProducerComponent5 消费者 KafkaConsumerComponent6 控制器（GET请求发送消息）7 启动类8 测试效果写法二：发送复杂消息对…

【C++】多态

文章目录多态的概念多态的定义及实现多态的构成条件虚函数虚函数的重写C11 final和override抽象类概念多态的原理（以下演示在32平台）虚函数表多态的原理静态绑定和动态绑定单继承和多继承关系的虚函数表单继承派生类的虚函数表多继承派生类的虚函数表其他…

彻底理解Session、Cookie、Token，入门及实战

文章目录Session Cookie的使用Token的使用Session Cookie的使用 1. Session存储数据 HttpSession session request.getSession(); //Servlet底层通过的SESSIONID，获取Session对象。 session.setAttribute("loginTime",new Date()); out.println(&q…

【算法基础】数据结构| 单链表+双链表代码实现+图解+原理

博主简介：努力学习的预备程序媛一枚~博主主页： 是瑶瑶子啦所属专栏: Java岛冒险记【从小白到大佬之路】前言因为瑶瑶子正在备战蓝桥杯和校内ACM选拔赛，最近在学习算法相关的知识。我是借助AcWing网站来学习的，这篇文章是我学习…

1.3 K8S入门之组件说明

Borg K8S起源于Borg系统三种请求来源： borgcfgCLTWEB browsersBorgMaster: 负责请求的分发Borglet: 工人sheduler：包工头和Persist store交互，不直接和Borglet交互Borglet监听Persist store K8S CS结构 Master服务器Node节点 Replicat…

行业洞察丨PDF图纸为什么影响生产企业的生产质量？订单交期？

随着现代社会科技的发展，在全球激烈的市场竞争下，国内企业基于质量和成本的竞争已经日益转化为基于时间的竞争，如何快速响应瞬息万变的市场需求，更快完成生产订单交付？这已成为生产型企业面临的一大痛点。承接市场客户…

python搭建web服务器

前言：相信看到这篇文章的小伙伴都或多或少有一些编程基础，懂得一些linux的基本命令了吧，本篇文章将带领大家服务器如何部署一个使用django框架开发的一个网站进行云服务器端的部署。文章使用到的的工具 Python：一种编程语言&…

用 DolphinDB 和 Python Celery 搭建一个高性能因子计算平台

因子挖掘是量化金融研究和交易的核心工作。传统的开发流程中，通常使用 Python 从关系型数据库（如 SqlServer, Oracle 等）读取数据，在 Python 中进行因子计算。随着证券交易规模不断扩大以及交易数据量的激增，用户对因子…

QT VTK开发 (一、下载编译)

Vtk，（visualization toolkit）是一个开源的免费软件系统，主要用于三维计算机图形学、图像处理和可视化。Vtk是在面向对象原理的基础上设计和实现的，它的内核是用C构建的，包含有大约250,000行代码&#xff0c…

计算机组成原理实验一（完整）

在VC中使用调试功能将下列语句运行的内存存放结果截图，每运行一句需截图一次。 #include<stdio.h> int main() {int a 你的学号末两位-100; //0x？？？？？？？？&#x…

关于Anaconda的下载和安装方法及报错说明

初学者接触python时，常会因各种环境问题、各种包的安装问题而苦恼，Anaconda则可以解决这一切繁琐的问题，但很多人不知道如何下载安装配置，本文详细讲述下载和安装配置过程，也汇总常见安装过程中的错误（零基…

基于 pytorch 的手写 transformer + tokenizer

1. Embedding

相关文章