记6(人工神经网络

目录

  • 1、M-P神经元
  • 2、感知机
  • 3、Delta法则
  • 4、前馈型神经网络(Feedforward Neural Networks)
  • 5、鸢尾花数据集——单层前馈型神经网络:
  • 6、多层神经网络:增加隐含层
  • 7、实现异或运算(01、10为1,00、11为0)
  • 8、线性不可分问题
  • 9、万能近似定理
  • 10、超参数与验证集
  • 11、误差反向传播算法(Backpropagation, BP)

1、M-P神经元

  • M-P神经元:1943,McCulloch,Pitts
    x1,x2,x3…模拟神经元的树突,接受信号,wi表示权重,对输入xi加权求和后与θ比较得到z,再传入阶跃函数得到输出y。但是不具备学习能力。
    在这里插入图片描述

2、感知机

模型和上图一样,输入层xi不需要计算,只有输出层发生计算,层数只有一层。
具备学习能力,有多个解,受权值初始值和错误样本顺序影响。
线性二分类器,对非线性问题无法收敛。

在这里插入图片描述
单个感知机实现二分类问题,多个感知机(就是多个输出)能实现多分类问题(就是前面所说的softmax回归) :
在这里插入图片描述

3、Delta法则

就是前面的逻辑回归,用step()函数或sigmoid()函数,逻辑回归可以看做是单层神经网络

4、前馈型神经网络(Feedforward Neural Networks)

每层只与前一层神经元相连;同一层之间没有连接;各层间没有反馈,不存在跨层连接
全连接网络(Full Connnected Network):前一层(左边)的节点都与后一层(右边)的节点连接,且后一层的节点都接受来自前一层的所有输入。

5、鸢尾花数据集——单层前馈型神经网络:

  • 设计:

结构:单层前馈型神经网络
激活函数:softmax函数;
损失函数:交叉熵损失函数;

  • 实现:如下图,输入是训练集的120条数据,含4条属性/数据,输出是3个标签(独热编码表示为1*3向量),将之前的模型参数W(Y=WX)的第一行参数分离出来,即Y=WX+B(以便实现多层神经网络时更加方便直观)。使用独热编码(见上一篇笔记)
    在这里插入图片描述
  • softmax函数:tf.nn.softmax(tf.matmul(X_train,W)+b)
  • 自然顺序码转化为独热编码(需要先转换为浮点数):tf.one_hot(tf.constant(y_test,dtype=tf.int32),3)
  • 交叉熵损失函数:tf.keras.losses.categorical_crossentropy(y_true,y_pred)
      y_true:独热编码的标签值
      y_pred:softmax函数的输出值
      输出是一个一维张量,其中的每个元素是每个样品的交叉熵损失,因此需要用求平均值函数
  • 设置运行时分配显存(如果出现错误:Blast GEMMlaunch failed:):
gpus=tf.config.experimental.list_physical_devices('GPU')
for gpu in gpus:
    tf.config.experimental.set_memory_growth(gpu,True)

返回张量最大值的索引:tf.argmax(input_tensor,axis=0)(见TensorFlow笔记3)

import tensorflow as tf
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
#读取文件,详见Python笔记10
train_path=tf.keras.utils.get_file("iris.csv", origin=None)   #获取文件的绝对路径
df_iris=pd.read_csv(train_path,header=0)        #结果是panda的二维数据表
iris=np.array(df_iris)        #将二维数据表类型转化为二维数组类型,shape=(150,6),与视频中不一样,索引号为0的是序号
x=iris[:,1:5]         #索引号1~4列属性:花瓣长度和宽度,x.shape=(150, 2)
y=iris[:,5]          #train_y.shape=(150,)

x_svv=np.concatenate((np.stack(x[y=='setosa']),  #选取2种花,以及其前2种属性
                     np.stack(x[y=='versicolor']),
                     np.stack(x[y=='virginica'])),axis=0)
y_svv=np.concatenate((np.zeros(np.where(y=='setosa')[0].size),   #元组只有一个元素(数组)
                     np.ones(np.where(y=='versicolor')[0].size),
                     2*np.ones(np.where(y=='virginica')[0].size),),axis=0)

np.random.seed(612)
iris_rand=np.concatenate((x_svv,np.expand_dims(y_svv,axis=1)),axis=1)
np.random.shuffle(iris_rand)        #打乱数组,并选前面120条数据为训练集,后面30条做测试集
x_train=tf.constant(iris_rand[:120,0:4],dtype=tf.float32)       #转化为float32张量
y_train=tf.constant(iris_rand[:120,4],dtype=tf.int64)           #转化为int32张量
x_test=tf.constant(iris_rand[120:,0:4],dtype=np.float32)
y_test=tf.constant(iris_rand[120:,4],dtype=tf.int64)

X_train=x_train-tf.reduce_mean(x_train,axis=0)      #中心化, x_train.dtype=dtype('O'),是object
X_test=x_test-tf.reduce_mean(x_test,axis=0)
Y_train=tf.one_hot(y_train,3)                       #转化为独热编码Y_train.shape=TensorShape([120, 3])
Y_test=tf.one_hot(y_test,3)

learn_rate=0.5                                  #超参数——学习率
iter=50                                         #迭代次数
display_step=10                                 #设置每迭代10次输出结果,方便查看
np.random.seed(612)
W=tf.Variable(np.random.randn(4,3),dtype=tf.float32)    #W列向量,4行3列
B=tf.Variable(np.zeros([3]),dtype=tf.float32)           #B列向量,长度为3的一维张量

cce_train=[]       #保存交叉熵损失
cce_test=[]
acc_train=[]      #保存准确率
acc_test=[]

#训练模型
for i in range(0,iter+1):
    with tf.GradientTape() as tape:
        #softmax函数,PRED_train是120*3的张量,每行3个元素表属于某个样品的预测概率
        PRED_train=tf.nn.softmax(tf.matmul(X_train,W)+B)    #shape=TensorShape([120, 3])
        Loss_train=tf.reduce_mean(tf.keras.losses.categorical_crossentropy(y_true=Y_train, y_pred=PRED_train))

    PRED_test=tf.nn.softmax(tf.matmul(X_test,W)+B)
    Loss_test=tf.reduce_mean(tf.keras.losses.categorical_crossentropy(y_true=Y_test, y_pred=PRED_test))

    #准确率,求PRED_train的每一行3个元素的max,即属于对应标签的概率最大,再与真实值y_train比较,求得准确率
    Accuracy_train=tf.reduce_mean(tf.cast(tf.equal(tf.argmax(PRED_train,axis=1),y_train),tf.float32))
    Accuracy_test=tf.reduce_mean(tf.cast(tf.equal(tf.argmax(PRED_test,axis=1),y_test),tf.float32))   
    cce_train.append(Loss_train)
    cce_test.append(Loss_test)
    acc_train.append(Accuracy_train)
    acc_test.append(Accuracy_test)
    
    grads=tape.gradient(Loss_train,[W,B])
    W.assign_sub(learn_rate*grads[0])       #dL_dW
    B.assign_sub(learn_rate*grads[1])       #dL_dB
    
    if i%display_step==0:
        print("i:%i,\tTrainAcc:%f,TrainLoss:%f\tTestAcc:%f,TestLoss:%f" 
              %(i,Accuracy_train,Loss_train,Accuracy_test,Loss_test))

#可视化,图1准确率,图2损失函数
plt.figure(figsize=(10,3))
plt.subplot(121)
plt.plot(cce_train,color="blue",label="train")
plt.plot(cce_test,color="red",label="test")
plt.xlabel("Iteration")
plt.ylabel("Loss")
plt.subplot(122)
plt.plot(acc_train,color="blue",label="train")
plt.plot(acc_test,color="red",label="test")
plt.xlabel("Iteration")
plt.ylabel("Accuracy")
plt.tight_layout()      #自动调整子图
plt.show()
        输出:训练集和测试集损失都在下降,可以继续训练
i:0,	TrainAcc:0.291667,TrainLoss:2.102095	TestAcc:0.366667,TestLoss:1.757901
i:10,	TrainAcc:0.891667,TrainLoss:0.338472	TestAcc:0.933333,TestLoss:0.447548
i:20,	TrainAcc:0.933333,TrainLoss:0.271075	TestAcc:0.900000,TestLoss:0.405325
i:30,	TrainAcc:0.958333,TrainLoss:0.234893	TestAcc:0.833333,TestLoss:0.384106
i:40,	TrainAcc:0.958333,TrainLoss:0.210969	TestAcc:0.766667,TestLoss:0.370561
i:50,	TrainAcc:0.966667,TrainLoss:0.193312	TestAcc:0.766667,TestLoss:0.360828

在这里插入图片描述

6、多层神经网络:增加隐含层

在这里插入图片描述

7、实现异或运算(01、10为1,00、11为0)

采用2个感知机:一个感知机相当于一根直线,下图第1个感知机实现与运算(11–>1,其他–>0),第2个感知机实现或非运算(见下图红色横线处)
在这里插入图片描述
再进行叠加(对h1、h2进行或非运算),得到异或运算的模型(每个神经元,即感知机,有3个参数):
在这里插入图片描述
也可以使用以下运算(先进行或运算OR、或非运算NAND,再进行与运算AND):
在这里插入图片描述

8、线性不可分问题

可以转化为多个线性问题,每个线性问题用一个感知机(一个神经元下图第3图的橙色圈)表示一条直线,再用一个神经元将其组合起来(下图第3图绿色圈):
在这里插入图片描述
下图中1个四边形,1个六变形。需要用2个隐含层(下图红色框),用4个神经元(黄色圈)区分4边形,用6个神经元(橙色圈)区分6边形,再将2个图形组合起来(绿色圈)
在这里插入图片描述

9、万能近似定理

在前馈型神经网络中,只要有一个隐含层,并且这个隐含层中有足够多的神经元,就可以逼近任意一个连续的函数或空间分布

  • 多隐含层神经网络:能够表示非连续的函数或空间区域、减少泛化误差、减少每层神经元的数量
    在这里插入图片描述

10、超参数与验证集

例如:有2个超参数a、b,a∈{1,2,3},b∈{4,5,6,7},那么就有3*4种组合。使用同一个训练集训练每一种组合得到各种组合的模型,使用同一个验证集测试其误差(防止模型的过拟合),去除误差较大的模型,确定模型超参数,再在测试集评估模型的泛化能力。

11、误差反向传播算法(Backpropagation, BP)

误差反向传播算法(Backpropagation, BP):利用链式法则,反向传播损失函数的梯度信息,计算出损失函数对网络中所有模型参数的梯度(它计算的只是梯度,其本身不是学习算法,将梯度传递给其他算法,如梯度下降法,来学习更新模型的参数)

举个栗子:下面神经网络,输入值x=1时,真实值y=0.8,4个模型参数wh、bh、w0、b0,重复下面4个步骤:
在这里插入图片描述

step1:设置模型参数初始值:wh=0.2, bh=0.1, w0=0.3, b0=0.2
step2:正向计算预测值(即是计算预测值y0):
y h = 1 1 + e − ( 0.2 ∗ 1 + 0.1 ) = 0.57 y_h=\dfrac{1}{1+e^{-(0.2*1+0.1)}}=0.57 yh=1+e(0.21+0.1)1=0.57
y 0 = 1 1 + e − ( 0.3 ∗ 0.57 + 0.2 ) = 0.59 y_0=\dfrac{1}{1+e^{-(0.3*0.57+0.2)}}=0.59 y0=1+e(0.30.57+0.2)1=0.59
step3:计算误差:Loss=0.5*(y-y0)²=0.02205
step4:误差反向传播:
在这里插入图片描述

  • 可以用TensorFlow自带求导自动求偏导,也可手动求,下面手动对w求偏导数的过程(用求导的链式求导即可):(图中有问题的:dLoss/dw0少了一个负号!!!)
    在这里插入图片描述
    同理,更新参数b0(和上面对w0求偏导比较,只有dz0/db0不同):
    在这里插入图片描述
    同理,更新隐含层模型参数wh、bh:
    在这里插入图片描述
    在这里插入图片描述
    如果隐含层有多个神经元,那么误差反向传播,则按照权值wi按比例反向传播:
    在这里插入图片描述
    如果输出层有多个神经元,和上面同理:
    在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/963042.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

增删改查(CRUD)操作

文章目录 MySQL系列:1.CRUD简介2.Create(创建)2.1单行数据全列插入2.2 单行数据指定插入2.3 多⾏数据指定列插⼊ 3.Retrieve(读取)3.1 Select查询3.1.1 全列查询3.1.2 指定列查询3.1.3 查询字段为表达式(都是临时表不会对原有表数据产生影响)…

python 语音识别

目录 一、语音识别 二、代码实践 2.1 使用vosk三方库 2.2 使用SpeechRecognition 2.3 使用Whisper 一、语音识别 今天识别了别人做的这个app,觉得虽然是个日记app 但是用来学英语也挺好的,能进行语音识别,然后矫正语法,自己说的时候 ,实在不知道怎么说可以先乱说,然…

openssl 生成证书 windows导入证书

初级代码游戏的专栏介绍与文章目录-CSDN博客 我的github:codetoys,所有代码都将会位于ctfc库中。已经放入库中我会指出在库中的位置。 这些代码大部分以Linux为目标但部分代码是纯C的,可以在任何平台上使用。 源码指引:github源…

深度学习编译器的演进:从计算图到跨硬件部署的自动化之路

第一章 问题的诞生——深度学习部署的硬件困境 1.1 计算图的理想化抽象 什么是计算图? 想象你正在组装乐高积木。每个积木块代表一个数学运算(如加法、乘法),积木之间的连接代表数据流动。深度学习框架正是用这种"积木拼接…

Agentic Automation:基于Agent的企业认知架构重构与数字化转型跃迁---我的AI经典战例

文章目录 Agent代理Agent组成 我在企业实战AI Agent企业痛点我构建的AI Agent App 项目开源 & 安装包下载 大家好,我是工程师令狐,今天想给大家讲解一下AI智能体,以及企业与AI智能体的结合,文章中我会列举自己在企业中Agent实…

论文阅读:Realistic Noise Synthesis with Diffusion Models

这篇文章是 2025 AAAI 的一篇工作,主要介绍的是用扩散模型实现对真实噪声的仿真模拟 Abstract 深度去噪模型需要大量来自现实世界的训练数据,而获取这些数据颇具挑战性。当前的噪声合成技术难以准确模拟复杂的噪声分布。我们提出一种新颖的逼真噪声合成…

Baklib揭示内容中台与人工智能技术的创新协同效应

内容概要 在当今信息爆炸的时代,内容的高效生产与分发已成为各行业竞争的关键。内容中台与人工智能技术的结合,为企业提供了一种新颖的解决方案,使得内容创造的流程更加智能化和高效化。 内容中台作为信息流动的核心,能够集中管…

Spring Boot 中的事件发布与监听:深入理解 ApplicationEventPublisher(附Demo)

目录 前言1. 基本知识2. Demo3. 实战代码 前言 🤟 找工作,来万码优才:👉 #小程序://万码优才/r6rqmzDaXpYkJZF 基本的Java知识推荐阅读: java框架 零基础从入门到精通的学习路线 附开源项目面经等(超全&am…

DeepSeek 第二弹:Janus-Pro 文生图模型

最近,DeepSeek 可谓是科技圈的焦点,还火出了圈外,掀起了一场全民创作热潮。大家纷纷借助 DeepSeek R1 挥洒才情,实现诗人、小说家的梦想。然而,就在这场文字狂欢之际,DeepSeek 又悄然推出了一款重磅产品——…

leetcode 2563. 统计公平数对的数目

题目如下 数据范围 显然数组长度最大可以到10的5次方n方的复杂度必然超时,阅读题目实际上就是寻找两个位置不同的数满足不等式即可(实际上i j无所谓是哪个 我们只要把位置小的想成i就行)。 按照上面的思路我们只需要排序数组然后从前往后遍历数组然后利用二分查找…

2024第十五届蓝桥杯网安赛道省赛题目--cc(CyberChef)/crypto

打开链接后是: 通过题目界面可以知道是AES加密,并且告诉我们key是gamelabgamelab,IV是gamelabgamelab,Mode是CBC模式,输入是flag,输出为Hex十六进制4da72144967f1c25e6273950bf29342aae635e2396ae17c80b1b…

【视频+图文详解】HTML基础4-html标签的基本使用

图文教程 html标签的基本使用 无序列表 作用&#xff1a;定义一个没有顺序的列表结构 由两个标签组成&#xff1a;<ul>以及<li>&#xff08;两个标签都属于容器级标签&#xff0c;其中ul只能嵌套li标签&#xff0c;但li标签能嵌套任何标签&#xff0c;甚至ul标…

Python-基于PyQt5,wordcloud,pillow,numpy,os,sys等的智能词云生成器

前言&#xff1a;日常生活中&#xff0c;我们有时后就会遇见这样的情形&#xff1a;我们需要将给定的数据进行可视化处理&#xff0c;同时保证呈现比较良好的量化效果。这时候我们可能就会用到词云图。词云图&#xff08;Word cloud&#xff09;又称文字云&#xff0c;是一种文…

自制虚拟机(C/C++)(二、分析引导扇区,虚拟机读二进制文件img软盘)

先修复上一次的bug&#xff0c;添加新指令&#xff0c;并增加图形界面 #include <graphics.h> #include <conio.h> #include <windows.h> #include <commdlg.h> #include <iostream> #include <fstream> #include <sstream> #inclu…

工作流引擎Camunda

一&#xff0c;什么是Camunda&#xff1f; Camunda是一个开源的工作流引擎和业务流程管理平台&#xff0c;基于Java和Spring框架构建。它支持BPMN 2.0标准&#xff0c;允许用户通过图形界面或编程方式定义复杂的工作流和业务流程。Camunda可以嵌入到任何Java应用程序中&#x…

C++,STL,【目录篇】

文章目录 一、简介二、内容提纲第一部分&#xff1a;STL 概述第二部分&#xff1a;STL 容器第三部分&#xff1a;STL 迭代器第四部分&#xff1a;STL 算法第五部分&#xff1a;STL 函数对象第六部分&#xff1a;STL 高级主题第七部分&#xff1a;STL 实战应用 三、写作风格四、…

【已解决】黑马点评项目Redis版本替换过程的数据迁移

黑马点评项目Redis版本替换过程的数据迁移 【哭哭哭】附近商户中需要用到的GEO功能只在Redis 6.2以上版本生效 如果用的是老版本&#xff0c;美食/KTV的主页能正常返回&#xff0c;但无法显示内容 上次好不容易升到了5.0以上版本&#xff0c;现在又用不了了 Redis 6.2的windo…

文献阅读 250201-The carbon budget of China: 1980–2021

The carbon budget of China: 1980–2021 来自 <https://www.sciencedirect.com/science/article/pii/S2095927323007703> 中国碳预算&#xff1a;1980–2021 年 ## Abstract: Using state-of-the-art datasets and models, this study comprehensively estimated the an…

《OpenCV》——图像透视转换

图像透视转换简介 在 OpenCV 里&#xff0c;图像透视转换属于重要的几何变换&#xff0c;也被叫做投影变换。下面从原理、实现步骤、相关函数和应用场景几个方面为你详细介绍。 原理 实现步骤 选取对应点&#xff1a;要在源图像和目标图像上分别找出至少四个对应的点。这些对…

条件变量 实现2生产者2消费者模型

1个生产者在生产的时候&#xff0c;另个生产者不能生产(生产者之间互斥) 条件变量用于线程同步&#xff0c;线程挂起/被唤醒。 条件变量和互斥锁共同保证生产者之间互斥生产者和消费者的同步。 思路&#xff1a; 1 定义、初始化共享资源 a 缓冲区&#xff1a;存储物品…