刘知远LLM——神经网络基础

在这里插入图片描述

文章目录

  • 神经网络基础
    • 基本构成
    • 如何训练?
  • Word2Vec例子
    • 负采样:
  • 循环神经网络 RNN
  • 门控计算单元 GRU
  • 长短时记忆网络 LSTM
    • 遗忘门
    • 输入门
    • 输出门
    • 双向RNN
    • 卷积神经网络 CNN
    • pytorch实战

神经网络基础

基本构成

全称:人工神经网络。启发于生物神经细胞
单个神经元
在这里插入图片描述
单层神经网络
在这里插入图片描述
前向计算
在这里插入图片描述
激活函数的作用:没有激活函数的话,多层神经网络就会退化为单层
在这里插入图片描述
输出层
线性输出:回归问题
sigmoid:二分类
softmax:多分类
在这里插入图片描述
在这里插入图片描述

如何训练?

  • 训练目标:
    对回归问题:计算最小均方差
    在这里插入图片描述
    对分类问题:计算交叉熵
    在这里插入图片描述
  • 最小化损失函数:梯度下降法
    在这里插入图片描述
    求导梯度从而进行梯度下降
    在这里插入图片描述
    求微分的链式法则
    在这里插入图片描述
    计算图
    前向
    反向

Word2Vec例子

  • word2Vec可以学到词与词之间的关系
    例如:king-Queen 与 man-woman 近似于平行,这两对词的差异也类似
    在这里插入图片描述
  • 实现:两类模型
    在这里插入图片描述

滑动窗口构造训练数据:目标词target ;其他词context
CBOW根据context预测target,skip-Gram相反
在这里插入图片描述
输出词表的概率分布,最大的概率应该对应target
在这里插入图片描述
skip-Gram:预测context
在这里插入图片描述

  • 问题:词表非常大,计算量大。
  • 解决方法:负采样、分层softmax

负采样:

只采样一小部分作为负例子,词频越高采样概率越大。3/4可以保证低频词也有一定的采样概率
在这里插入图片描述
只采样四个词,其他词不参与计算
在这里插入图片描述

循环神经网络 RNN

处理序列数据时会进行顺序记忆

  • 网络结构
    -
    注意 h i h_i hi会有 h i − 1 h_{i-1} hi1部分的输入

在这里插入图片描述
在这里插入图片描述
选取概率最大的词作为下一个词
在这里插入图片描述
应用场景:序列标注、序列预测、图片描述、文本分类
优点:处理变长数据、模型大小不会随输入增大而增大、参数共享、利用历史信息
缺点:顺序计算时间慢、后面的单元很难获得较早、时间的信息、太多链式的梯度计算–梯度爆炸/消失

变体:GRU/LTSM
核心:计算时保留周围的记忆单元进行数据处理,以捕捉到长距离的依赖性

门控计算单元 GRU

门控机制:对当前信息进行筛选,决定哪些信息会传到下一层。
更新门:当前信息 x i x_i xi和过去隐藏状态 h i − 1 h_{i-1} hi1的比重问题
重置门:上一层的隐藏状态对当前状态的激活
在这里插入图片描述
重置门接近零时, h i h_i hi就和 h i − 1 h_{i-1} hi1没什么关系了

在这里插入图片描述
更新门 z i z_i zi接近零时, h i h_i hi直接由当前输入得到
在这里插入图片描述

长短时记忆网络 LSTM

网络结构
在这里插入图片描述
关键改变:增加cell state 学习长期的依赖关系
通过门控添加cell的信息
在这里插入图片描述

遗忘门

来决定上一个状态有哪些信息可以从cell中移除

在这里插入图片描述

输入门

决定当前信息有哪些可以存到cell中
在这里插入图片描述
在这里插入图片描述

输出门

在这里插入图片描述
总结:做堆叠或者网络很深时,性能很好。缓解梯度的问题

双向RNN

不仅仅取决于过去,还会取决于未来的数据
在这里插入图片描述
总结RNN类算法:顺序记忆,但存在梯度问题

卷积神经网络 CNN

图像领域,考虑结构特殊性,也可以用于NLP,如情感分类和关系分类
在这里插入图片描述
网络结构:
在这里插入图片描述
输入层:
在这里插入图片描述
滑动卷积核
在这里插入图片描述
CNN擅长提取局部特征;RNN适用于变长文本
在这里插入图片描述

pytorch实战

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/384134.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

[VulnHub靶机渗透] WestWild 1.1

🍬 博主介绍👨‍🎓 博主介绍:大家好,我是 hacker-routing ,很高兴认识大家~ ✨主攻领域:【渗透领域】【应急响应】 【python】 【VulnHub靶场复现】【面试分析】 🎉点赞➕评论➕收藏…

全面详细对比@Resource和@Autowired

版权声明 本文原创作者:谷哥的小弟作者博客地址:http://blog.csdn.net/lfdfhl Resource和Autowired概述 在Java的Spring框架中,Resource和Autowired都是用于实现依赖注入(Dependency Injection, DI)的重要注解。依赖…

视频号流量真大,对新手非常友好

你好,我是小生,一个程序员转型做自媒体副业中~ 最近几天,做自媒体圈的同频朋友在测试视频号直播,目的是为了快速涨粉不违规,春节的流量 视频号推荐,这个组合非常完美。 经过测试数据看出来,开播…

C#,21根火柴棍问题(21 Matchticks Problem)的算法与源代码

一、21根火柴棍问题(21 Matchticks Problem) 21根火柴棍问题是西方经典游戏之一。 给定21根火柴,2个人A和B(比如:分别是计算机和用户)。 每个人一次可以挑选 1-- 4 根火柴。 被迫挑最后一根火柴的人输了…

计算机网络——网络安全

计算机网络——网络安全 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家, [跳转到网站](https://www.captainbed.cn/qianqiu) 小程一言专栏链接: [link](http://t.csdnimg.cn/ZUTXU) 网络安全何…

配置DNS正反向解析服务!!!!

一.准备工作 #关闭防火墙和selinux,或者允许服务通过 [rootnode ~]# nmcli c mod ens32 ipv4.method manual ipv4.address 192.168.32.133/24 ipv4.gateway 192.168.32.2 ipv4.dns 192.168.32.132 [rootnode ~]# nmcli c reload [rootnode ~]# nmcli c up ens32[rootnode ~]# …

2.12.。

1、选择芯片型号——STM32F051K8 2、开启调试功能 3、配置时钟 4、配置时钟树 5、工程管理

基于Qt的人脸识别项目(功能:颜值检测,口罩检测,表情检测,性别检测,年龄预测等)

完整代码链接在文章末尾 效果展示 代码讲解(待更新) qt图片文件上传 #include <QtWidgets> #include <QFileDialog>

Linux diff命令

参考资料 【 diff 】コマンド&#xff08;基本編&#xff09;――テキストファイルの差分を出力する便利なdiffコマンド使い方 目录 前期准备一. 基本语法二. 文件比较2.1 无配置项2.2 -B 忽略空行&#xff0c;-w忽略空格2.3 -y 文件内容横向比较显示2.4 -q 仅显示文件是否不同…

UR10+gazebo+moveit吸盘抓取搬运demo

使用ur10gazebo开发了一个简易吸盘抓取箱子码垛的仿真过程&#xff0c;机械臂控制使用的是moveit配置。 本博客对部分关键的代码进行解释。 代码运行环境&#xff1a;支持ubuntu16、 18、 20&#xff0c; ros版本是ros1&#xff08;经过测试&#xff09;。 1、搬运场景 场景的…

单页404源码

<!doctype html> <html> <head> <meta charset"utf-8"> <title>简约 404错误页</title><link rel"shortcut icon" href"./favicon.png"><style> import url("https://fonts.googleapis.co…

Servlet验证技术

验证技术 验证是验证用户信息并确定该用户是否有权访问服务器资源的过程。用于验证用户信息的各种验证技术包括: 基本验证基于表单的验证摘要验证客户机整数验证1. 基本验证 网站可能包含两种类型的网站,即受保护和不受保护网页。默认情况下,所有用户都可以访问不受保护或者…

数据分析基础之《pandas(8)—综合案例》

一、需求 1、现在我们有一组从2006年到2016年1000部最流行的电影数据 数据来源&#xff1a;https://www.kaggle.com/damianpanek/sunday-eda/data 2、问题1 想知道这些电影数据中评分的平均分&#xff0c;导演的人数等信息&#xff0c;我们应该怎么获取&#xff1f; 3、问题…

线性代数的本质——1 向量

向量是线性代数中最为基础的概念。 何为向量&#xff1f; 从物理上看&#xff0c; 向量就是既有大小又有方向的量&#xff0c;只要这两者一定&#xff0c;就可以在空间中随便移动。 从计算机应用的角度看&#xff0c;向量和列表很接近&#xff0c;可以用来描述某对象的几个不同…

C||1.水仙花数是指一个n位数,每一位数字的n次幂的和正好等于这个数本身。2.有n个整数,使其前面各数顺序向后移m个位置,最后m个数变成最前面的m个数。

1.水仙花数是指一个n位数&#xff0c;每一位数字的n次幂的和正好等于这个数本身。 比如&#xff1a;153 13 53 33。 要求打印出所有三位数的水仙花数。 #include <stdio.h> #include <math.h> int main() {int i,x,y,z;for(i100;i<1000;i){xi/100%10;yi/10%…

力扣_字符串6—最小覆盖字串

题目 给你一个字符串 s 、一个字符串 t 。返回 s 中涵盖 t 所有字符的最小子串。如果 s 中不存在涵盖 t 所有字符的子串&#xff0c;则返回空字符串 “” 。 示例 &#xff1a; 输入&#xff1a;s “ADOBECODEBANC”, t “ABC” 输出&#xff1a;“BANC” 解释&#xff1a;…

java对象内部都有哪些东西

普通对象 对象头 markword 占8字节ClassPointer 指针 :-XX userCompressedClassPointrs 为4字节&#xff0c;不开启为 8字节实例数据 引用类型: -XX userCommpressedOops 为4字节&#xff0c;不开启8字节Padding对齐&#xff0c; 8的倍数 数组对象 对象头&#xff1a;markwor…

探索现代Web前端开发框架:选择最适合你的工具

在当今快速发展的Web开发领域&#xff0c;前端开发框架的选择显得尤为关键。这些框架可以帮助我们更高效地构建出交互性强、性能卓越的用户界面。本文将带你了解几个当前最受欢迎的Web前端开发框架&#xff0c;并帮助你根据自己的需求选择最合适的工具。 1. React React由Fac…

【java基础题型】录入3位数,求每一位是?

\t 制表符&#xff0c;用于整到8个格子 Scanner类&#xff0c;导入Scanner包(1),代码里导入Scanner类写录入&#xff0c;调用录入的对象的方法 通用求个位数&#xff0c;%10即可&#xff0c;余数不会小于除数 package java录入3位数;import java.util.Scanner; …