神经网络的学习(Neural Networks: Learning)

1.代价函数

案例:假设神经网络的训练样本有𝑚个,每个包含一组输入𝑥和一组输出信号𝑦,𝐿表示神经网络层数,𝑆𝐼表示每层的 neuron 个数(𝑆𝑙表示输出层神经元个数),𝑆𝐿代表最后一层中处理单元的个数。
将神经网络的分类定义为两种情况:二类分类和多类分类,
二类分类:𝑆𝐿 = 0, 𝑦 = 0 𝑜𝑟 1表示哪一类;
𝐾类分类:𝑆𝐿 = 𝑘, 𝑦𝑖 = 1表示分到第 i 类;(𝑘 > 2)
在这里插入图片描述
在这里插入图片描述
看起来复杂很多的代价函数背后的思想还是一样的,我们希望通过代价函数来观察算法预测的结果与真实情况的误差有多大,唯一不同的是,对于每一行特征,我们都会给出𝐾个预测,基本上我们可以利用循环,对每一行特征都预测𝐾个不同结果,然后在利用循环在𝐾个预测中选择可能性最高的一个,将其与𝑦中的实际数据进行比较。
正则化的那一项只是排除了每一层𝜃0后,每一层的𝜃 矩阵的和。最里层的循环𝑗循环所
有的行(由𝑠𝑙 +1 层的激活单元数决定),循环𝑖则循环所有的列,由该层(𝑠𝑙层)的激活单元数所决定。即:ℎ𝜃(𝑥)与真实值之间的距离为每个样本-每个类输出的加和,对参数进行regularization 的 bias 项处理所有参数的平方和。

在机器学习中,代价函数(Cost Function)是用来衡量模型预测误差的函数。它通常用于训练模型,以最小化预测误差。

代价函数的定义取决于所使用的模型和算法。对于线性回归模型,代价函数通常是平方误差代价函数,即将预测值与实际值之间的差的平方和作为目标函数进行优化。对于逻辑回归模型,代价函数通常是对数损失函数,即对预测概率取对数后与实际标签进行比较。

在训练模型时,通过迭代更新模型参数,使得代价函数的值逐渐减小。常用的优化算法包括梯度下降、随机梯度下降、牛顿法等。

选择合适的代价函数是训练模型的关键步骤之一。不同的代价函数适用于不同的问题和数据类型。在实际应用中,需要根据具体问题和数据特征选择合适的代价函数和优化算法,以获得更好的模型预测性能。

2.反向传播算法

正向传播方法,我们从第一层开始正向一层一层进行计算,直到最后一层的ℎ𝜃(𝑥),从前往后。
反向传播算法,也就是首先计算最后一层的误差,然后再一层一层反向求出各层的误差,直到倒数第二层。
案例:
假设我们的训练集只有一个实例(𝑥(1), 𝑦(1)),我们的神经网络是一个四层的神经网络,
其中𝐾 = 4,𝑆𝐿 = 4,𝐿 = 4:
在这里插入图片描述
反向传播算法(Backpropagation Algorithm)是一种在神经网络中用于根据误差更新各层连接权重的算法。它是基于梯度下降法的一种学习算法,通过不断地迭代,使神经网络的预测结果不断逼近实际值,从而不断优化神经网络的参数。

反向传播算法的工作原理是,首先通过正向传播计算得到输出结果,然后根据这个结果和实际值的误差计算出误差,再将这个误差反向传播到每一层神经元,更新每一层神经元的权重,以减小误差。这个过程一直持续到模型收敛,即达到预设的误差阈值或者迭代次数。

反向传播算法的核心是梯度下降,即在每个迭代步骤中,根据当前参数的梯度方向更新参数,使参数朝着减小误差的方向进行优化。具体来说,梯度下降算法会计算代价函数的偏导数,然后根据这个偏导数来更新参数。

反向传播算法的优点包括:能够自适应地学习输入和输出之间的映射关系;能够处理大规模的数据;通过不断优化参数,提高模型的预测精度;能够处理非线性问题等。但是,反向传播算法也存在一些缺点,例如容易陷入局部最优解,训练时间较长等。因此,在实际应用中,需要根据具体问题和数据特征选择合适的神经网络结构和优化算法,以获得更好的模型预测性能。

3.反向传播算法的直观理解

前向传播算法:
在这里插入图片描述
在这里插入图片描述

而反向传播算法的直观理解可以这样描述:
在这里插入图片描述

想象一个多层的大蛋糕,每一层都有一些糖霜(代表神经元的输出)和糖粒(代表神经元的输入)。我们想要调整糖粒的量,使得糖霜的总量(代表网络的输出)与我们想要的总量尽可能接近。

首先,我们计算出实际的糖霜总量与我们想要的糖霜总量之间的差距。这个差距就是我们的误差。

然后,我们开始从蛋糕的顶层(网络的输出层)开始,将每一层的糖粒调整一点,看看是否可以使误差变小。这个调整的过程就是反向传播。

我们会一直调整,直到误差达到我们能够接受的范围,或者直到我们没有更多的糖粒可以调整为止。

在神经网络的情境下,每一层的糖粒都对应一个神经元的权重。当我们想要调整一个糖粒时,我们实际上是在调整与这个糖粒相连的神经元的权重。通过不断地调整权重,我们希望最终能够得到一个满意的糖霜总量,也就是网络的输出。

以上就是反向传播算法的直观理解。这个算法允许我们通过局部的、微小的调整,逐步地优化网络的参数,以实现全局的最优解。

4.实现注意:展开参数

把参数从矩阵展开成向量,以便我们在高级最优化步骤中的使用需要。
在这里插入图片描述

5.梯度检验

梯度的数值检验(Numerical Gradient Checking)方法。这种方法的思想是通过估计梯度值来检验我们计算的导数值是否真的是我们要求的。
对梯度的估计采用的方法是在代价函数上沿着切线的方向选择离两个非常近的点然后计算两个点的平均值用以估计梯度。即对于某个特定的 𝜃,我们计算出在 𝜃-𝜀 处和 𝜃+𝜀 的代价值(𝜀是一个非常小的值,通常选取 0.001),然后求两个代价的平均,用以估计在 𝜃处的代价值。
在这里插入图片描述
在这里插入图片描述
梯度检验是一种用于验证神经网络中反向传播算法是否正确的方法。它的基本思想是通过计算梯度值来检验之前计算的导数是否符合要求。

具体来说,梯度检验的方法是在曲线上取一点,对这点进行微小的扰动,然后计算出微扰后的两个点之间的斜率。通常,这个斜率是非常小的,因为我们在做微扰动。然后,我们可以使用这个斜率来估计在这一点上的梯度。

如果反向传播算法是正确的,那么这个梯度值应该与通过反向传播算法计算出的梯度值非常接近。如果两者相差很大,那么就说明反向传播算法在这一点上可能存在问题,需要进一步检查和修正。

梯度检验的优点是可以帮助我们发现反向传播算法中可能存在的错误,提高模型的精度和稳定性。但是,它也有一些缺点,比如计算量大,计算复杂度高,可能会增加模型的训练时间和成本等。因此,在实际应用中,我们需要根据具体问题和数据特征选择合适的梯度检验方法和参数设置,以获得更好的模型预测性能。

6.随机初始化

随机初始化是一种常见的权重初始化方法,用于神经网络的训练。在神经网络中,权重和偏置的初始值对模型的训练结果有很大影响。如果初始值设置不当,可能会导致模型收敛速度慢、陷入局部最优等问题。

随机初始化方法是将权重和偏置初始化为随机的值,通常是在一个小的随机范围内。这个随机范围的选择会影响到模型的训练效果。常见的随机初始化方法包括从均匀分布或高斯分布中随机采样。

随机初始化的优点包括:
可以打破对称性,为神经元提供不同的起点,促进网络的多样性和学习能力。
可以提高模型的泛化能力,因为不同的初始值会导致模型在不同的解空间中进行搜索,增加找到更好解的可能性。
但是,随机初始化也存在一些问题,如可能会带来训练不稳定、对称性和梯度消失或爆炸等问题。此外,如果初始化参数不当,可能会影响模型的训练速度和精度。因此,在选择随机初始化方法时,需要根据具体问题和数据特征选择合适的随机范围和分布,并进行相应的调整和优化。

7.综合总结(重要)

小结一下使用神经网络时的步骤:
网络结构:第一件要做的事是选择网络结构,即决定选择多少层以及决定每层分别有多少个单元。
第一层的单元数即我们训练集的特征数量。(输入值)
最后一层的单元数是我们训练集的结果的类的数量。(输出值)
如果隐藏层数大于 1,确保每个隐藏层的单元个数相同,通常情况下隐藏层单元的个数越多越好。
我们真正要决定的是隐藏层的层数和每个中间层的单元数。
训练神经网络:

  1. 参数的随机初始化
  2. 利用正向传播方法计算所有的ℎ𝜃(𝑥)
  3. 编写计算代价函数 𝐽 的代码
  4. 利用反向传播方法计算所有偏导数
  5. 利用数值检验方法检验这些偏导数
  6. 使用优化算法来最小化代价函数

8.自主驾驶

使用神经网络来实现自动驾驶,也就是说使汽车通过学习来自己驾驶。
案例:
在下面也就是左下方,就是汽车所看到的前方的路况图像。
在这里插入图片描述
在图中你依稀能看出一条道路,朝左延伸了一点,又向右了一点,然后上面的这幅图,你可以看到一条水平的菜单栏显示的是驾驶操作人选择的方向。就是这里的这条白亮的区段显示的就是人类驾驶者选择的方向。比如:最左边的区段,对应的操作就是向左急转,而最右端则对应向右急转的操作。因此,稍微靠左的区段,也就是中心稍微向左一点的位置,则表示在这一点上人类驾驶者的操作是慢慢的向左拐。
这幅图的第二部分对应的就是学习算法选出的行驶方向。并且,类似的,这一条白亮的区段显示的就是神经网络在这里选择的行驶方向,是稍微的左转,并且实际上在神经网络开始学习之前,你会看到网络的输出是一条灰色的区段,就像这样的一条灰色区段覆盖着整个区域这些均称的灰色区域,显示出神经网络已经随机初始化了,并且初始化时,我们并不知道汽车如何行驶,或者说我们并不知道所选行驶方向。只有在学习算法运行了足够长的时间之后,才会有这条白色的区段出现在整条灰色区域之中。显示出一个具体的行驶方向这就表示神经网络算法,在这时候已经选出了一个明确的行驶方向,不像刚开始的时候,输出一段模糊的浅灰色区域,而是输出一条白亮的区段,表示已经选出了明确的行驶方向。

机器学习在自主驾驶领域中有着广泛的应用,下面介绍一些机器学习在自主驾驶中的案例:

感知和识别:机器学习算法可以用于感知和识别车辆周围的环境,包括道路标志、车辆、行人和其他障碍物等。例如,深度学习算法可以用于图像识别,通过训练大量的图像数据集来提高识别准确率。
决策规划和控制:机器学习算法可以用于自主驾驶中的决策规划和控制。例如,强化学习算法可以用于规划行驶轨迹和速度,以及控制车辆的油门、刹车和转向等。
路径规划和导航:机器学习算法可以用于路径规划和导航,例如使用Dijkstra算法或A*搜索算法等来寻找最优路径。同时,机器学习还可以用于地图构建和定位,例如使用卡尔曼滤波器或粒子滤波器等算法进行车辆定位和地图构建。
行为预测和模拟:机器学习算法可以用于预测和模拟驾驶行为。例如,使用机器学习算法对历史驾驶数据进行训练和学习,可以预测驾驶员的驾驶行为和决策,从而为自主驾驶提供参考和借鉴。
总之,机器学习在自主驾驶领域中的应用非常广泛,从感知和识别到决策规划和控制,再到路径规划和导航、行为预测和模拟等方面都有着重要的应用。随着机器学习技术的发展和完善,自主驾驶技术的安全性和可靠性也将得到进一步提升。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/343711.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

web安全思维导图(白帽子)

web安全思维导图(白帽子) 客户端脚本安全 服务端应用安全 白帽子讲web安全 安全运营体系建设

‘cnpm‘ 不是内部或外部命令,也不是可运行的程序

一、问题 昨天用npm 安装环境,实在太慢了,就想用cnpm,然后发现提示‘cnpm 不是内部或外部命令,也不是可运行的程序。 看了很多方法,选择了下面这个,运气好到爆棚,就直接可以用了。其他的方法暂未去了解。先…

C++模板与STL【STL概述】

🌈个人主页:godspeed_lucip 🔥 系列专栏:C从基础到进阶 🌏1 STL概述🍉1.1 STL的诞生🍉1.2 STL基本概念🍉1.3 STL六大组件🍉1.4 STL中容器、算法、迭代器🍉1.5…

Typecho后台无法登录显示503 service unavailable问题及处理

一、Typecho 我的博客地址:https://www.aomanhao.top 使用老薛主机动态Typecho博客框架handsome主题的搭配,文章内容可以异地网页更新,可以听后台背景音乐,很好的满足我的痛点需求,博客部署在云端服务器访问响应较快…

微信小程序(十二)在线图标与字体的获取与引入

注释很详细,直接上代码 上一篇 新增内容: 1.从IconFont获取图标与文字的样式链接 2.将在线图标配置进页面中(源码) 3.将字体配置进页面文字中(源码) 4.css样式的多文件导入 获取链接 1.获取图标链接 登入…

百度大脑 使用

百度大脑: 官方网址:https://ai.baidu.com/ 文档中心:https://ai.baidu.com/ai-doc 体验中心:https://ai.baidu.com/experience 百度大脑则是百度AI核心技术引擎,它包括基础层、感知层、认知层和安全,是百…

理想架构的非对称高回退Doherty功率放大器理论与仿真

Doherty理论—理想架构的非对称高回退Doherty功率放大器理论与仿真 参考: 三路Doherty设计 01 射频基础知识–基础概念 Switchmode RF and Microwave Power Amplifiers、 理想架构的Doherty功率放大器(等分经典款)的理论与ADS电流源仿真参考…

python爬虫之JS逆向基础小案例:网抑云数据获取

嗨喽~大家好呀,这里是魔王呐 ❤ ~! python更多源码/资料/解答/教程等 点击此处跳转文末名片免费获取 所用软件 解释器: python 3.8 编辑器: pycharm 2022.3 使用的模块 第三方模块: requests >>> 数据请求 execjs >>> pip insta…

Structure-from-Motion Revisited(COLMAP) 流程介绍

Structure-from-Motion Revisited(COLMAP)流程介绍 主要贡献1 场景图增强2 下一最佳视图选择3 稳健高效的三角化4 BA5 冗余视图挖掘 Reference: Structure-from-Motion Revisited 原文COLMAP 使用教程Colmap论文——《Structure-from-Motion …

HarmonyOS鸿蒙应用开发( 四、重磅组件List列表组件使用详解)

List列表组件,是一个非常常用的组件。可以说在一个应用中,它的身影无处不在。它包含一系列相同宽度的列表项,适合连续、多行呈现同类数据,如商品列表、图片列表和和文本列表等。ArkUI 框架采用 List 容器组件创建列表(…

红队打靶练习:W34KN3SS: 1

目录 信息收集 1、arp 2、nmap 3、nikto 4、gobuster 5、dirsearch WEB web信息收集 目录探测 漏洞利用 openssl密钥碰撞 SSH登录 提权 get user.txt get passwd 信息收集 1、arp ┌──(root㉿ru)-[~/kali] └─# arp-scan -l Interface: eth0, type: EN10MB…

【深度学习】初识深度学习

初识深度学习 什么是深度学习 关系: #mermaid-svg-7QyNQ1BBaD6vmMVi {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-7QyNQ1BBaD6vmMVi .error-icon{fill:#552222;}#mermaid-svg-7QyNQ1BBaD6vmMVi .err…

HEGERLS智能物流机器人|场景为王 以存取为技术核心布局的仓储集群

随着物流需求的多样化、复杂化,四向穿梭车技术经过几年的蓬勃发展,正在各领域迎来愈加广泛的应用。河北沃克作为该领域的代表,凭借庞大的产品群、功能强大的软件系统以及资源丰富的生态合作伙伴体系实现了快速的发展。其中,海格里…

Spring5系列学习文章分享---第三篇(AOP概念+原理+动态代理+术语+Aspect+操作案例(注解与配置方式))

目录 AOP概念AOP底层原理AOP(JDK动态代理)使用 JDK 动态代理,使用 Proxy 类里面的方法创建代理对象**编写** **JDK** 动态代理代码 AOP(术语)AOP操作(准备工作)**AOP** **操作(**AspectJ注解)**AOP** **操作(**AspectJ…

【系统DFX】如何诊断占用过多 CPU、内存、IO 等的神秘进程?

热门面试问题:如何诊断占用过多 CPU、内存、IO 等的神秘进程? 下图展示了 Linux 系统中有用的工具。 🔹’vmstat’ - 报告有关进程、内存、分页、块 IO、陷阱和 CPU 活动的信息。🔹’iostat’ - 报告系统的 CPU 和输入/输出统计信…

TortoiseSVN源码安装与迁移全攻略

一、前言 随着版本控制系统的普及,越来越多的开发者和团队开始使用SVN(Subversion)来管理代码。本文将详细介绍TortoiseSVN的源码安装及迁移过程,帮助您轻松掌握这一版本控制工具。 二、TortoiseSVN源码安装 依赖环境安装&…

# 安徽锐锋科技IDMS系统简介

IDMS 由安徽锐锋科技独立开发 该系统负责和海算以及UE\UNITY的无缝衔接并具备远程数据库访问、高速数据库的自动创建及数据存储、支持MQTT等多种物联网接口,支持多种算法。主要完成由于物料、人员、生产、故障、不良异常、订单异常带来的生产损失,通过海…

【趣味CSS3.0】粘性定位属性Position:sticky是不是真的没用了?

🚀 个人主页 极客小俊 ✍🏻 作者简介:web开发者、设计师、技术分享博主 🐋 希望大家多多支持一下, 我们一起学习和进步!😄 🏅 如果文章对你有帮助的话,欢迎评论 💬点赞&a…

【产品交互】超全面B端设计规范总结

不知不觉已经深耕在B端这个领域3年有余,很多人接触过B端后会觉得乏味,因为B端的设计在视觉上并没有C端那么有冲击力,更多的是结合业务逻辑,设计出符合业务需求的交互,以及界面排版的合理性,达到产品的可用性…

UE5 C++ Slate独立程序的打包方法

在源码版安装目录内找到已编译通过的xxx.exe,(\Engine\Binaries\Win64\xxx.exe),在需要的位置新建文件夹,拷贝源码版Engine内的Binaries、Content、Shaders文件夹到目标文件夹内,将xxx.exe放入对应位置,删除…