自然语言NLP学习

2-7 门控循环单元(GRU)_哔哩哔哩_bilibili

GRU  LSTM

双向RNN

CNN 卷积神经网络

输入层  转化为向量表示

dropout

ppl

标量

在物理学和数学中,标量(Scalar)是一个只有大小、没有方向的量。它只用一个数值就可以完全描述,且满足交换律。例如,质量、温度、时间、体积、密度、功、能量等都是标量。

在向量代数中,标量与向量是相对的概念,标量可以与向量相乘,从而改变向量的长度但不改变其方向。例如,在三维空间中,如果一个向量的长度为3,一个标量为2,那么这个标量乘以向量的结果将得到一个长度为6,方向不变的新向量。

注意力分数

隐向量

隐向量(Latent Vector)是机器学习和深度学习中一个重要的概念,特别是在自然语言处理、推荐系统、图像识别等领域。隐向量是用来表示复杂数据的一种低维实数向量,它通过训练学习到的,并试图捕捉原始高维数据中的潜在结构和语义信息。

在推荐系统中:

  • 隐向量通常用来表示用户和物品(如电影、音乐等),每个用户和每件物品都被映射到一个固定维度的向量空间中。
  • 例如,在因子分解机(FM,Factorization Machines)模型中,各个特征(比如用户ID或商品ID)对应的隐向量可以通过矩阵分解得到,这些隐向量的内积可以用来预测用户对商品的评分或者偏好。

在自然语言处理中:

  • 单词或文档也可以用隐向量来表示,这种表示方法常被称为词嵌入(Word Embeddings),如Word2Vec、GloVe等模型生成的向量。
  • 这些隐向量可以捕获单词之间的语义相似性,使得在向量空间中距离相近的单词具有类似的含义。

在深度学习架构中:

  • 在神经网络中,Embedding层就是用来将离散的高维输入(如one-hot编码)转换为连续的低维隐向量,以便进行后续的计算和模式挖掘。

总的来说,隐向量是一种压缩和抽象的表示形式,它有助于模型理解和处理高维稀疏数据,并能够发现数据内部隐藏的模式和联系。

softmax函数是一种在机器学习和深度学习中广泛使用的归一化指数函数,主要用于多分类问题的输出层计算预测类别概率分布。

激活函数

注意力机制解决信息瓶颈问题

Transformer

BPE

交叉熵

正则化

加权平均是一种统计方法,用于计算一组数值的平均值时,考虑到每个数值的重要性(权重)不同。在普通平均数中,所有数据点都同等重要,而在加权平均中,每个数据点有一个与其对应的权重值,这个权重反映了该数据点在最终结果中的相对影响程度。

加权平均的计算公式为:

加权平均数=∑(每个数据值×对应权重)∑(所有权重)加权平均数=∑(所有权重)∑(每个数据值×对应权重)​

例如,在学校教育场景中,一个学生的学期总评成绩可能由平时测验、期中考试和期末考试的成绩按不同比例(权重)综合得出:

  • 平时测验:80 分,权重 20%
  • 期中考试:90 分,权重 30%
  • 期末考试:95 分,权重 50%

那么,该学生的学期总评成绩可以通过以下步骤计算:

学期总评成绩=(80×0.2)+(90×0.3)+(95×0.5)0.2+0.3+0.5学期总评成绩=0.2+0.3+0.5(80×0.2)+(90×0.3)+(95×0.5)​

此外,在财务领域,加权平均法常用于库存管理,计算存货的单位成本。例如,考虑一段时间内多次购入商品的情况,每次购入的数量和单价不同,这时会根据各批次进货的数量(作为权重)和其相应的单价来计算整个库存的平均单位成本。

3-13 预训练语言模型--PLM介绍_哔哩哔哩_bilibili

预训练

预训练语言模型

Transformers

PyTorch

fine-tune

“微调”(fine-tune)的具体含义略有不同,但核心都是对已有的事物进行精细化调整和优化:

  1. 在机器学习和人工智能领域,微调通常是指对预训练模型的参数进行进一步调整。例如,在深度学习中,我们可能首先采用一个已经在大规模数据集上预训练好的模型,然后将其应用到特定任务上时,针对这个特定任务的数据进行再次训练,通过调整部分或全部模型参数,使得模型能够更好地适应新任务的需求,从而提升模型在新任务上的性能。

load metric

3-20 Transformers教程--Demo讲解_哔哩哔哩_bilibili  重点看下

4-1 课程内容介绍_哔哩哔哩_bilibili

4-2 Prompt-Learning和Delta-Tuning--背景和概览_哔哩哔哩_bilibili

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/349146.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Elasticsearch内核解析 - 数据模型篇

Elasticsearch内核解析 - 数据模型篇 - 知乎 Elasticsearch是一个实时的分布式搜索和分析引擎,它可以帮助我们用很快的速度去处理大规模数据,可以用于全文检索、结构化检索、推荐、分析以及统计聚合等多种场景。 Elasticsearch是一个建立在全文搜索引擎…

对齐大型语言模型与人类偏好:通过表示工程实现

1、写作动机: 强化学习表现出相当复杂度、对超参数的敏感性、在训练过程中的不稳定性,并需要在奖励模型和价值网络中进行额外的训练,导致了较大的计算成本。为了解决RL方法带来的上述挑战,提出了几种计算上轻量级的替代方案&…

虹科分享丨汽车技术的未来:Netropy如何测试和确保汽车以太网的性能

来源:艾特保IT 虹科分享丨汽车技术的未来:Netropy如何测试和确保汽车以太网的性能 原文链接:https://mp.weixin.qq.com/s/G8wihrzqpJJOx5i0o63fkA 欢迎关注虹科,为您提供最新资讯! #汽车以太网 #车载网络 #Netropy …

程序员自由创业周记#25:一个功能的诞生

程序员自由创业周记#25:一个功能的诞生 快捷启动 记录在创业项目 Island Widgets-学伟灵动岛锁屏小组件 中新增一个功能的诞生过程。 功能名称:快捷启动。 人话:不用回到桌面在锁屏界面或者灵动岛就能打开其他App、网页或快捷指令。 使用…

uniapp安卓android离线打包本地打包整理

离线打包准备 下载Android studio 1.准备资源hbuilder 2.准备离线SDK 最新android平台SDK下载最新android平台SDK下载 3.离线打包key申请 4.直接导入HBuilder-Integrate-AS工程,直接运行simpleDemo项目即可 5.安装java 1.8 jdk-8u151-windows-x64 6.遇到这个报错报错Caus…

什么时间平仓?什么时间反转?只需这个信号,WeTrade1秒找到

知道什么时间平仓?什么时间反转?交易还会有亏损的存在吗?那么怎么找到平仓和反转的信号呢?其实很简单,WeTrade1秒找到。 我们可以用以前的交易方法,在突破蜡烛线的高点或低点设置止损单。初始止盈必须至少是止损长度的两倍。我们用的是趋势交易&…

师如灯塔,照我前行:我在誉天的RHCA认证之旅

时光荏苒,岁月如梭。2022年10月,我踏上了通向RHCA(Red Hat Certified Architect)证书的征程。2023年11月,我成功拿到了RHCA证书,也给这段旅程画上了圆满的句号。 而在这充满挑战和成长的旅程中,…

有刷直流驱动芯片的GC9114 pin to pin替代TC118S,内置过温,低压欠压保护等功能更具性价比,应用于牙刷,电子锁,红外开关等上

GC9114 是一款低压 5V 全桥驱动芯片,为摄像机、消费类产品、玩具和其他低压或者电池供电的运动控制类应用提供了集成的电机驱动解决方案。 能提供高达 1.3A 的持续输出电流。可以工作在 2~6V 的电源电压上。它具有 PWM(IN/IN)输入接口,与行业…

TensorRT部署--Linux(Ubuntu)环境配置

系列文章目录 TensorRT环境配置–Linux(Ubuntu) 文章目录 系列文章目录前言一、环境配置二、CUDA下载安装三、cuDNN下载安装四、TensorRT下载安装五、模型创建总结 前言 TensorRT部署-Windows环境配置: https://blog.csdn.net/m0_70420861/article/details/135658922?spm100…

Java面试提纲

JDK 1 jdk1.8版本后的新特性有哪些? Java Development Kit (JDK) 1.8(也称为Java 8)在2014年3月发布,引入了许多重要的新特性,以下是其中的一些关键特性: Lambda表达式: Java 8引入了lambda表达式&#x…

给2024年还想要成为网络工程师的朋友的一份学习福利

网工最新薪资情况 据统计,普通网络工程师的工资通常在5000元以上;专业领域的网络工程师,如网络存储或网络安全工程师,以及管理层,收入会更高,他们的年薪可以在15万元左右;网络工程师的薪酬分布…

常用通信总线学习——RS232与RS485

RS232概述 RS-232标准接口(又称EIA RS-232)是常用的串行通信接口标准之一,它是由美国电子工业协会(Electronic Industry Association,EIA)联合贝尔系统公司、调制解调器厂家及计算机终端生产厂家于1970年共同制定,其全…

鸿蒙开发-UI-组件

鸿蒙开发-UI-布局 鸿蒙开发-UI-布局-线性布局 鸿蒙开发-UI-布局-层叠布局 鸿蒙开发-UI-布局-弹性布局 鸿蒙开发-UI-布局-相对布局 鸿蒙开发-UI-布局-格栅布局 鸿蒙开发-UI-布局-列表 ​​​​​​鸿蒙开发-UI-布局-网格 鸿蒙开发-UI-布局-轮播 文章目录 前言 一、按钮 1.创建…

【AndroidStudio】2022.3Giraffe连接超时,更换下载源,使用本地gradle,版本对应问题

记录了使用AndroidStudio2022.3 Giraffe版本在搭建环境时遇到的问题,包括连接超时,gradle无法读取等。 如果只看如何正确的配置,直接跳转第3节 配置汇总 1 连接超时 项目一开始会自动下载gardle文件来加载项目 1.1 Connect timed out 基…

智能语音识别源码系统+语义理解+对话管理+语音合成 带完整的搭建教程

人工智能技术的不断发展,智能语音识别技术逐渐成为人们日常生活和工作中不可或缺的一部分。然而,目前市场上的智能语音识别产品大多存在一定的局限性,如识别率不高、功能单一等。为了解决这些问题,罗峰给大家分享一款基于智能语音…

学生护眼灯哪个品牌好?最好的学生护眼灯品牌排行

说到台灯,相信大家都不陌生,特别是对于家中有学生的家长们而言,一款优秀的护眼台灯已经成为居家必备的工具之一。然而,随着各种护眼台灯层出不穷,价格从几百到上千不等,人们对于这一领域的产品是否物有所值…

Shell脚本④循环语句for、while、until

目录 一.for 1. 九九乘法表 2.求1到10奇数和 3.累计加到100 (1)方法一 (2)方法2 二.while 1.猜价格小游戏 2.累加到100的方法三 三.until循环 1.累加到100方法四 四.嵌套循环 五.循环语句中break、exit和continue 1…

深入了解Python游戏开发模块:pyglet

目录 一、引言 二、pyglet简介 三、pyglet的功能与特点 四、如何使用pyglet开发游戏 五、与其他游戏开发框架的比较 六、结论 一、引言 在Python中,pyglet是一个强大的游戏开发模块,它提供了创建2D和3D游戏所需的各种工具。pyglet使用OpenGL作为其…

叩开c++的大门

目录 1. 什么是c? 2. c的发展史 3. c和c语言的区别是什么呢? 4. 接下来让我们正式进入c的学习吧。 4.1 c的关键字 4.2 命名空间 4.2.1 命名空间的定义 4.2.2 命名空间的使用 4.3 c的输入输出 std命名空间的使用惯例std是C标准库的命名空间&…

新年的故事,独具魅力的新年传说

新年的故事,独具魅力的新年传说 新年,是我们每年都期盼的时刻。在这个喜庆的日子里,人们互相祝福、共享快乐,以满怀希望的心情迎接未来的到来。新年不仅仅是一个节日,它背后浓厚的文化积淀和故事也让人无比着迷。让我…