神经网络八股(3)

1.什么是梯度消失和梯度爆炸

梯度消失是指梯度在反向传播的过程中逐渐变小,最终趋近于零,这会导致靠前层的神经网络层权重参数更新缓慢,甚至不更新,学习不到有用的特征。

梯度爆炸是指梯度在方向传播过程中逐渐变大,权重参数更新变化较大,导致损失函数的上下跳动,导致训练不稳定

可以使用一些合理的损失函数如relu, leakRelu,归一化处理,batchnorm,确保神经元的输出值在合理的范围内

2.为什么需要特征归一化

因为特征之间的单位与尺度不同,为了消除此间差异,对每个维度等同看待,防止尺度大的特征起决定性作用,所以需要进行特征归一化使不同特征在数值范围和尺度上保持一致。

优点:加快模型训练速度、提高模型性能、避免数值不稳定,增强模型的泛化能力

平均值归一化:

最大最小值归一化:

标准化:

3.什么是组合特征,如何组合高阶特征

组合特征是指多个特征组合起来,作为新的特征,组合的方法有:基本运算、聚合、聚合后进行基本运算等。

组合高阶特征可以对类别特征进行embedding嵌入、然后对特征实施FM因子分解机特征组合。

Embedding是一种将类别特征转换为低维稠密向量的技术。具体来说,它将每个类别映射到一个固定维度的向量空间中

因子分解机(FM)是一种专门用于处理稀疏数据和特征组合的机器学习模型。它特别擅长处理类别特征的交互(interaction)和组合。FM的核心思想是:

  • 将每个特征(包括类别特征的embedding)表示为一个向量。

  • 通过计算特征向量之间的内积(点积),捕捉特征之间的交互关系。

4.欧式距离与曼哈顿距离的区别

欧式距离是定义在欧几里得空间中,两点之间的距离,他具有明显的缺点是将样本不同属性之间的差别等同看待;曼哈顿距离也叫城市区块距离,是欧几里得空间上两点所形成的线段对轴产生的投影的距离总和

4.为什么一些场景使用余弦相似度而不是欧式相似度

余弦相似度指的是两个向量之间的角度关系,并不关心他们的绝对值大小,而欧式距离体现的是数值上的绝对差异

余弦相似度:衡量的是两个向量之间的夹角,只关注方向,而不考虑向量的长度,对向量的方向差异敏感,但对长度不敏感

欧即里得距离:衡量的是两个点在空间中的绝对距离,关注的是向量的长度和位置

5.one-hot独热编码得作用是什么

将每个类别特征的取值转换为一个唯一的二进制向量,其中只有一个位置的值为1,其余位置的值为0。能够避免类别数据的序数关系,提供稀疏的特征表示,支持多类别特征的组合,并且与大多数算法兼容。然而,在处理类别数量较多的特征时,需要考虑其维度爆炸和稀疏性问题

6.参数模型和非参数模型

在统计学中,参数模型通常假设总体(随机变量)服从某一个分布,该分布由一些参数确定(比如正态分布由均值和方差确定),在此基础上构建的模型称为参数模型,参数模型的形式和复杂度在训练之前已经确定,模型的输出依赖于一组固定数量的参数.模型形式固定,参数量有限,训练速度块,线性回归、逻辑回归、感知机:所需样本量少、拟合快、复杂度低。

非参数模型对于总体的分布不做任何假设,只是知道总体是一个随机变量,其分布是存在的(分布中也可能存在参数),但是无法知道其分布的形式,更不知道分布的相关参数,只有在给定一些样本的条件下,能够依据非参数统计的方法进行推断。非参数模型的形式和复杂度在训练过程中根据数据动态确定,模型的输出不依赖于固定数量的参数。形式灵活,参数不固定,训练慢。K近邻算法,SVM向量机,高斯过程。所需样本量多、拟合慢、容易过拟合

7.L1和L2正则先验分别服从什么分布

L1:lasso回归拉普拉斯分布

L1正则化通过惩罚参数的绝对值,使得模型参数倾向于稀疏化,即很多参数会趋近于零。这种稀疏性可以帮助进行特征选择,减少模型复杂度

L2:岭回归,高斯分布,L2正则化通过惩罚参数的平方,使得模型参数的值保持较小,但不会将参数完全置为零。这种正则化方法有助于平滑模型,避免过拟合。

8.回归问题常用得模型评估方法

均方误差:MSE预测值与实际值之差的平方的平均值。MSE的值越小,表示模型的预测结果越接近实际值,模型的性能越好。

均方根误差RMESE:均方误差(MSE)的平方根,它衡量的是模型预测值与实际值之间的标准差。RMSE的值越小,表示模型的预测结果越接近实际值,模型的性能越好

和方误差:SSE=i=1∑n​(yi​−y^​i​)2

平均绝对误差MAE:计算的是模型预测值与实际值之差的绝对值的平均值。

平均绝对百分比误差MAPE

决定系数:表示模型解释的因变量的方差比例。R2的值介于0和1之间,值越接近1,表示模型对数据的拟合越好,即模型解释的方差比例越高

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/977407.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【ARM】MDK如何生成指定大小的bin文件,并指定空区域的填充数据

1、 文档目标 解决MDK如何生成指定大小的bin文件,并指定空区域的填充数据 2、 问题场景 客户有这样的需求,客户本身的工程编译生成bin文件后,bin文件大小为200k。整体芯片的内存有512k。客户想要最终生成的bin文件可以达到512k的一个情况&a…

Linux-----进程间通信

一、按通信范围分类 同一主机进程通信 传统IPC方式: 管道(无名管道、有名管道)信号(Signal) System V IPC: 共享内存(效率最高)消息队列信号量 POSIX IPC(较新标准&#…

Part 3 第十二章 单元测试 Unit Testing

概述 第十二章围绕单元测试展开,阐述了单元测试的实践与重要性,通过对比其他测试类型,突出其特点,还介绍了单元测试的最佳实践、避免的反模式以及与测试替身相关的内容,为编写高质量单元测试提供指导。 章节概要 1…

Windows10配置C++版本的Kafka,并进行发布和订阅测试

配置的环境为:Release x64下的环境 完整项目:https://gitee.com/jiajingong/kafka-publisher 1、首先下载相应的库文件(.lib,.dll) 参考链接: GitHub - eStreamSoftware/delphi-kafka GitHub - cloade…

Deepseek引爆AI热潮 防静电地板如何守护数据中心安全

近期,Deepseek的爆火将人工智能推向了新的高度,也引发了人们对AI背后基础设施的关注。作为AI运行的“大脑”,数据中心承载着海量数据的存储、处理和传输,其安全稳定运行至关重要。而在这背后,防静电地板扮演着不可或缺…

Spring框架基本使用(Maven详解)

前言: 当我们创建项目的时候,第一步少不了搭建环境的相关准备工作。 那么如果想让我们的项目做起来方便快捷,应该引入更多的管理工具,帮我们管理。 Maven的出现帮我们大大解决了管理的难题!! Maven&#xf…

QSplashScreen --软件启动前的交互

目录 QSplashScreen 类介绍 使用方式 项目中使用 THPrinterSplashScreen头文件 THPrinterSplashScreen实现代码 使用代码 使用效果 QSplashScreen 类介绍 QSplashScreen 是 Qt 中的一个类,用于显示启动画面。它通常在应用程序启动时显示,以向用户显…

【Vscode 使用】集合1

一、使用make工具管理工程 windows下,下载mingw64,配置好mingw64\bin 为 Win10系统全局变量后。 在mingw64/bin目录下找到mingw32-make.exe工具。复制一份改名为:make.exe,没错,就是那么简单,mingw64自带m…

PHP-create_function

[题目信息]: 题目名称题目难度PHP-create_function2 [题目考点]: create_function ( string args , string args , string code )[Flag格式]: SangFor{wWx5dEGHHhDUwmST4bpXwfjSzq43I6cz}[环境部署]: docker-compose.yml文件或者docker …

golang内存泄漏

golang也用了好几年了,趁着有空 整理归纳下,以后忘了好看下 一般认为 Go 10次内存泄漏,8次goroutine泄漏,1次是真正内存泄漏,还有1次是cgo导致的内存泄漏 1:环境 go1.20 win10 2:goroutine泄漏 单个Goroutine占用内存&…

Python Seaborn库使用指南:从入门到精通

1. 引言 Seaborn 是基于 Matplotlib 的高级数据可视化库,专为统计图表设计。它提供了更简洁的 API 和更美观的默认样式,能够轻松生成复杂的统计图表。Seaborn 在数据分析、机器学习和科学计算领域中被广泛使用。 本文将详细介绍 Seaborn 的基本概念、常用功能以及高级用法,…

修改与 Git 相关的邮箱

要修改与 Git 相关的邮箱信息,需要区分以下两种情况: 1. 修改 Git 提交时使用的邮箱(影响提交记录) Git 提交记录中的邮箱由本地 Git 配置的 user.email 决定,与 SSH 密钥无关。修改方法如下: 全局修改&a…

用PyTorch从零构建 DeepSeek R1:模型架构和分步训练详解

DeepSeek R1 的完整训练流程核心在于,在其基础模型 DeepSeek V3 之上,运用了多种强化学习策略。 本文将从一个可本地运行的基础模型起步,并参照其技术报告,完全从零开始构建 DeepSeek R1,理论结合实践,逐步…

基于SpringBoot的“流浪动物救助系统”的设计与实现(源码+数据库+文档+PPT)

基于SpringBoot的“流浪动物救助系统”的设计与实现(源码数据库文档PPT) 开发语言:Java 数据库:MySQL 技术:SpringBoot 工具:IDEA/Ecilpse、Navicat、Maven 系统展示 系统功能结构图 局部E-R图 系统首页界面 系统…

从零开始玩转TensorFlow:小明的机器学习故事 5

图像识别的挑战 1 故事引入:小明的“图像识别”大赛 小明从学校里听说了一个有趣的比赛:“美食图像识别”。参赛者需要训练计算机,看一张食物照片(例如披萨、苹果、汉堡等),就能猜出这是什么食物。听起来…

学习笔记--电磁兼容性EMC

一、基本概念 电磁兼容性(Electromagnetic Compatibility,EMC)是电子电气设备在特定电磁环境中正常工作的能力,同时不会对其他设备产生不可接受的电磁干扰。其核心目标是确保设备在共享的电磁环境中既能抵抗干扰,又能避…

unity学习51:所有UI的父物体:canvas画布

目录 1 下载资源 1.1 在window / Asset store下下载一套免费的UI资源 1.2 下载,导入import 1.3 导入后在 project / Asset下面可以看到 2 画布canvas,UI的父物体 2.1 创建canvas 2.1.1 画布的下面是 event system是UI相关的事件系统 2.2 canvas…

ArcGIS Pro中创建最低成本路径的详尽教程

一、引言 在地理信息系统(GIS)的应用场景中,路径分析扮演着至关重要的角色。而最低成本路径分析,则是路径分析中的一种高级应用,它综合考虑了地形、植被、土地利用类型等多种因素,通过加权计算得出一条从起…

地铁站内导航系统:基于蓝牙Beacon与AR技术的动态路径规划技术深度剖析

本文旨在分享一套地铁站内导航系统技术方案,通过蓝牙Beacon技术与AI算法的结合,解决传统导航定位不准确、路径规划不合理等问题,提升乘客出行体验,同时为地铁运营商提供数据支持与增值服务。 如需获取校地铁站内智能导航系统方案文…

在VSCode中接入deepseek

注册就送14元2000万tokens。 https://cloud.siliconflow.cn/i/rnbA6i6U各种大模型 下面介绍我是如如接入vscode的 左边生成一个key,呆会vscode要用,不然401. 打开vscod,电脑能上网。下插件。 下好要配置 点它一下。 要配置,全…