深度学习笔记

激活函数

  1. 激活函数可以让神经网引入非线性性质,去除线性相关
  2. 特征映射,是网络捕获数据中的不同特征;
  3. relu =max(0,x)输出为0到正无穷
  4. sigmod输出为0-1 形状为s
  5. relu 输出为-1-1 以0为中心,形状为s

Numpy广播机制

1:两个tensor维度完全相同

2:两个tensor维度不同,此时从最后一维开始比较,若其中一个tensor最后一维为1则可以进行广播,继续比较倒数第二维,若有一个为1或者不存在则可以继续广播,否则不行;

Batch noemalization

由于上层网络层的输出是下一层网络层的输入,但是由于不同的网络层不同导输出的差异较大,这会导致每次训练的结果差别较大,因此将每层的输出进行归一化也就是均值为0方差为1的标准分布(减去均值,除以方差即可),这样可以加快收敛,减少训练时间;

IOU

Intersection over Union,交并比,表示的是检测框与实际框的重叠程度,重叠程度越高越好;计算方法为先计算交集在计算并集最后交集/并集

过拟合

在训练集表现良好,但在未见过的数据集力里表现较差,一般两种原因:

1:模型拥有大量的参数,表现力较强;

2:训练数据集较少

解决办法:

1:权值衰减:在学习过程中对较大的权重进行惩罚,因为很多过拟合就是因为权值较大的参数导致的;具体做法就是在损失函数中引入一个额外的项,这个项通常表示为 L2 范数(欧几里德范数)的平方,其目标是使模型的权重趋向于接近零

损失函数 = 原始损失项 + λ * ||权重||^2

λ 是权值衰减系数,通常是一个非负实数,用于控制正则化项的强度。λ 的选择通常需要进行超参数调优。

2:dropout:在学习的过程中进行神经元的随机删除

残差链接

残差连接指的是将上游的数据原封不动的传给下游,这样在反向传播的时候可以将梯度原封不动的传递,这可以缓解因为加深层而导致梯度变小或者梯度消失的问题;

迁移学习

将学习玩的部分权重复制到其他的神经网络,进行在学习,这对于数据集较少的情况使非常的有效;

递归结构

神经网络会受到之前生成信息的影响;

卷积

卷积层可以保持输入数据的形状,这样可以更好的理解图像数据信息;

Padding

padding可以改变输出的形状,因为卷积操作会不断缩小输出的形状,这样会导致卷积不再可用,利用padding为1可以保持输入输出同形状;

stride

应用滤波器的位置间隔,增大步幅,输出会变小

输出计算公式

三维卷积操作:

一个三通道滤波器进行卷积运算输出一个特征图

n个三通道滤波器输出n个特征图

1x1卷积

1:有利于降维从而减少参数量和实现高速化处理;

2:增加非线性,可以增加网络的非线性拟合能力,从而提高网络的精度;

3:提取通道相关联的信息

参数初始化

参考6.2节???

评价方法

1:BELU:BLEU 最初设计用于机器翻译的质量评估,但它也可以用于其他自然语言处理任务的评估,前提是您有一个参考标准,以便将生成的文本与之进行比较得分越高越好

2:"Average Relative Distance (ARD)" 是一种用于衡量数据点之间的相对距离或相似性的统计度量。它通常用于数据挖掘、聚类分析、模式识别和机器学习等领域,以评估数据点之间的关系。得分越低越好

碰到的问题

1:训练时损失函数发散,这可能是由于学习率偏大导致的,在paddle的layout分析训练时,因为作者采用的是8卡进行训练,但我用的是1卡,未更改学习率导致无法收敛,后面将学习率调整为原来的1/8后得到改善;

学习工具

tensorboard

1)数据可视化工具,包括网络结构,损失和准确性,高维嵌入投影到低维空间

2)tensorboard --logdir=output/tensorboard --port=6009(端口若被占用可以换一个端口)

3)远程连接运行tensorboard

本地使用SSH 并将远程服务器的端口映射到本地的计算机,可以使用git bash(将远程和服务器的6009端口映射到本地16006端口)

ssh -L 16006:127.0.0.1:6009 -p 37557 root@i-1.gpushare.com

4)本地浏览器打开http://localhost:16006/

数学知识

范数(正则化,用于控制复杂度和抑制过拟合)

L1范数(曼哈顿范数)

||x||_1 = |x_1| + |x_2| + ... + |x_n|各元素绝对值的和

L2范数(欧几里得范数)

||x||_2 = √(x_1^2 + x_2^2 + ... + x_n^2)各元素平方和的开方

L3范数(无穷范数)

||x||_∞ = max(|x_1|, |x_2|, ..., |x_n|)绝对值最大的元素

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/294132.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【STM32】STM32学习笔记-ADC模数转换器(21)

00. 目录 文章目录 00. 目录01. ADC简介02. ADC主要特征03. 逐次逼近型ADC04. ADC功能描述05. ADC基本结构06. 输入通道07. 转换模式08. 触发控制09. 数据对齐10. 转换时间11. 校准12. 硬件电路13. 附录 01. ADC简介 小容量产品是指闪存存储器容量在16K至32K字节之间的STM32F1…

再次拓宽信创生态版图,思迈特与统信软件完成产品兼容适配认证

近日,思迈特软件与统信软件科技有限公司(简称“统信软件”)完成产品兼容性适配互认证,加速国产信创生态化建设进程。 本次测试由商业智能与数据分析软件(简称:Smartbi Insight V11)产品与统信服…

AMEYA360分享:太阳诱电导电性高分子混合铝电解电容器

随着汽车电动化和电子控制化的进展,车载计算机和电气部件也在逐渐向大功率化的方向发展。而构成这些车载设备电源电路的电子元器件也必须随之进行技术革新。 太阳诱电集团携手全资子公司ELNA,开发并供应新型电容器“导电性高分子混合铝电解电容器”&…

农业银行RPA实践 3大典型案例分析

零接触开放金融服务在疫情之下被越来越多的银行和客户所认同,引起了更广泛的持续关注,各家银行纷纷开展产品服务创新,加速渠道迁移,同时通过远程办公、构建金融生态等方式积极推进零接触开放金融体系建设。 随着商业银行科技力量的…

JSP页面访问JDBC数据库的六个步骤

【例】创建exgample11_1.jsp页面&#xff0c;并在该页面中使用纯Java数据库驱动程序连接数据库test&#xff0c;并查询数据表goods中的数据。 <% page language"java" contentType"text/html;charsetUTF-8" pageEncoding"UTF-8"%> <% …

Flink窗口与WaterMark

本文目录 窗口的生命周期Window Assigners窗口函数&#xff08;Window Functions&#xff09;TriggersEvictorsAllowed Lateness 窗口 窗口&#xff08;Window&#xff09;是处理无界流的关键所在。窗口可以将数据流装入大小有限的“桶”中&#xff0c;再对每个“桶”加以处理。…

基于低代码的指尖遐想_3

低代码需要回答三个问题&#xff1a; 1、是否降低了门槛&#xff1f; 2、是否提高了效能&#xff1f; 3、使用者用户画像&#xff1f; 广义低代码&#xff0c;从项目全局维度&#xff08;项目启动、需求调研、方案设计、配置开发、系统验收、系统运营&#xff09;进行了解答。…

使用Termux+Hexo搭建个人博客结合内网穿透工具轻松实现公网访问内网博客

文章目录 前言 1.安装 Hexo2.安装cpolar3.远程访问4.固定公网地址 前言 Hexo 是一个用 Nodejs 编写的快速、简洁且高效的博客框架。Hexo 使用 Markdown 解析文章&#xff0c;在几秒内&#xff0c;即可利用靓丽的主题生成静态网页。 下面介绍在Termux中安装个人hexo博客并结合…

【算法每日一练]-动态规划 (保姆级教程 篇15)#动物 #赶deadline #page #构造字符串

目录 今日知识点&#xff1a; 01背包的路径输出 计算位和的数位dp 不用管字符串&#xff0c;只需要看好约束dp转移的变量 动物 赶deadline page 构造字符串 动物 有某类动物&#xff0c;可以在农场待n天&#xff0c;每天最多增加一只动物&#xff0c;第i天到来的动物每…

Android开发,jni,ndk开发,调用fmod音频库,音效引擎库

文章目录 Android开发&#xff0c;jni&#xff0c;ndk开发&#xff0c;调用fmod音频库&#xff0c;音效引擎库1.fmod介绍2.cmake3.C代码实践 Android开发&#xff0c;jni&#xff0c;ndk开发&#xff0c;调用fmod音频库&#xff0c;音效引擎库 1.fmod介绍 https://www.fmod.c…

前端常用的几种算法的特征、复杂度、分类及用法示例演示

算法&#xff08;Algorithm&#xff09;可以理解为有基本运算及规定的运算顺序所构成的完整的解题步骤&#xff0c;或者看成按照要求设计好的有限的确切的计算序列&#xff0c;并且这样的步骤和序列可以解决一类问题。算法代表着用系统的方法描述解决问题的策略机制&#xff0c…

两整数之和 -- 位运算

个人主页&#xff1a;Lei宝啊 愿所有美好如期而遇 本题链接 力扣&#xff08;LeetCode&#xff09; 输入描述 输入两个要相加的数&#xff0c;a和b 输出描述 返回a和b的和&#xff0c;这里其实直接return ab; 直接就过了&#xff0c;但是人题目要求还是给点面子~ 算法…

mariadb实现主从同步

准备两台服务器 Mariadb-Master&#xff1a;192.168.44.150 Mariadb-Backup&#xff1a;192.168.44.148 安装mariadb&#xff1a; https://blog.csdn.net/qq_50247813/article/details/135402502?spm1001.2014.3001.5502 组从复制原理如下 修改主数据库配置如下 vi /etc/my.…

钼铁,需求量将推动市场进入新一轮发展浪潮

钼铁是一种重要的冶金原料&#xff0c;广泛用于制造高速钢、不锈钢、合金钢、特殊钢等钢材&#xff0c;并且被广泛应用于核工业、电子工业、航空航天等高技术产业领域。随着钢铁市场的不断发展&#xff0c;钼铁市场也逐渐壮大&#xff0c;下面将从全球市场和中国市场分析其发展…

自学 c++ 要掌握哪些技巧和方法?

自学 c 要掌握哪些技巧和方法&#xff1f; 在开始前我有一些资料&#xff0c;是我根据网友给的问题精心整理了一份「C的资料从专业入门到高级教程」&#xff0c; 点个关注在评论区回复“888”之后私信回复“888”&#xff0c;全部无偿共享给大家&#xff01;&#xff01;&…

大模型在现代应用中的多元实例

目录 前言1 GPT-3、GPT-3.5、GPT-4&#xff1a;自然语言处理的新纪元1.1 GPT-3与传统NLP方法的区别1.2 GPT-3.5 和 GPT-4 的进展1.3 技术背后的革新 2 自然语言转换为Python代码2.1 简介2.2 技术原理2.3 应用和优势 3 DALL-E 2&#xff08;5B&#xff09;图像生成3.1 简介3.2 技…

LauraGPT

git&#xff1a;https://github.com/alibaba-damo-academy/FunCodec 文章目录 model archAudioTokenizermodel init model arch text-embedding 用千问的模型参数初始化&#xff1b;AudioEncoder用asr-conformer的参数初始化&#xff1b;所有的参数都参与更新&#xff0c;除了C…

【动态规划】C++算法:115.不同的子序列

作者推荐 【动态规划】【字符串】扰乱字符串 本文涉及的基础知识点 动态规划 LeetCode115 不同的子序列 给你两个字符串 s 和 t &#xff0c;统计并返回在 s 的 子序列 中 t 出现的个数&#xff0c;结果需要对 109 7 取模。 示例 1&#xff1a; 输入&#xff1a;s “rab…

如何让CHAT使用python绘制概率密度图像?

问CHAT&#xff1a;用python绘制概率密度图像 CHAT回复&#xff1a;你可以使用Python的matplotlib库和numpy库进行概率密度的绘制。 以下是一个简单的例子&#xff1a; python import numpy as np import matplotlib.pyplot as plt #随机生成1000个正态分布的数 data np.rand…

无法开机报 不可恢复的错误:securityagent无法创建所要求的机制Teamviewerauthplugin:start

无法开机报 不可恢复的错误&#xff1a;securityagent无法创建所要求的机制Teamviewerauthplugin:start 初步判断很有可能是TeamViewer的某个启动项或者签名书没有&#xff0c; 导致在预加载的时候无法加载TeamViewer。 然后出现这个情况有一个前提&#xff0c;那就是你用了第三…