神经网络八股(三)

1.什么是梯度消失和梯度爆炸

梯度消失是指梯度在反向传播的过程中逐渐变小,最终趋近于零,这会导致靠前层的神经网络层权重参数更新缓慢,甚至不更新,学习不到有用的特征。

梯度爆炸是指梯度在方向传播过程中逐渐变大,权重参数更新变化较大,导致损失函数的上下跳动,导致训练不稳定

可以使用一些合理的损失函数如relu, leakRelu,归一化处理,batchnorm,确保神经元的输出值在合理的范围内

2.为什么需要特征归一化

因为特征之间的单位与尺度不同,为了消除此间差异,对每个维度等同看待,防止尺度大的特征起决定性作用,所以需要进行特征归一化使不同特征在数值范围和尺度上保持一致。

优点:加快模型训练速度、提高模型性能、避免数值不稳定,增强模型的泛化能力

平均值归一化:

最大最小值归一化:

标准化:

3.什么是组合特征,如何组合高阶特征

组合特征是指多个特征组合起来,作为新的特征,组合的方法有:基本运算、聚合、聚合后进行基本运算等。

组合高阶特征可以对类别特征进行embedding嵌入、然后对特征实施FM因子分解机特征组合。

Embedding是一种将类别特征转换为低维稠密向量的技术。具体来说,它将每个类别映射到一个固定维度的向量空间中

因子分解机(FM)是一种专门用于处理稀疏数据和特征组合的机器学习模型。它特别擅长处理类别特征的交互(interaction)和组合。FM的核心思想是:

  • 将每个特征(包括类别特征的embedding)表示为一个向量。

  • 通过计算特征向量之间的内积(点积),捕捉特征之间的交互关系。

4.欧式距离与曼哈顿距离的区别

欧式距离是定义在欧几里得空间中,两点之间的距离,他具有明显的缺点是将样本不同属性之间的差别等同看待;曼哈顿距离也叫城市区块距离,是欧几里得空间上两点所形成的线段对轴产生的投影的距离总和

4.为什么一些场景使用余弦相似度而不是欧式相似度

余弦相似度指的是两个向量之间的角度关系,并不关心他们的绝对值大小,而欧式距离体现的是数值上的绝对差异

余弦相似度:衡量的是两个向量之间的夹角,只关注方向,而不考虑向量的长度,对向量的方向差异敏感,但对长度不敏感

欧即里得距离:衡量的是两个点在空间中的绝对距离,关注的是向量的长度和位置

5.one-hot独热编码得作用是什么

将每个类别特征的取值转换为一个唯一的二进制向量,其中只有一个位置的值为1,其余位置的值为0。能够避免类别数据的序数关系,提供稀疏的特征表示,支持多类别特征的组合,并且与大多数算法兼容。然而,在处理类别数量较多的特征时,需要考虑其维度爆炸和稀疏性问题

6.参数模型和非参数模型

在统计学中,参数模型通常假设总体(随机变量)服从某一个分布,该分布由一些参数确定(比如正态分布由均值和方差确定),在此基础上构建的模型称为参数模型,参数模型的形式和复杂度在训练之前已经确定,模型的输出依赖于一组固定数量的参数.模型形式固定,参数量有限,训练速度块,线性回归、逻辑回归、感知机:所需样本量少、拟合快、复杂度低。

非参数模型对于总体的分布不做任何假设,只是知道总体是一个随机变量,其分布是存在的(分布中也可能存在参数),但是无法知道其分布的形式,更不知道分布的相关参数,只有在给定一些样本的条件下,能够依据非参数统计的方法进行推断。非参数模型的形式和复杂度在训练过程中根据数据动态确定,模型的输出不依赖于固定数量的参数。形式灵活,参数不固定,训练慢。K近邻算法,SVM向量机,高斯过程。所需样本量多、拟合慢、容易过拟合

7.L1和L2正则先验分别服从什么分布

L1:lasso回归拉普拉斯分布

L1正则化通过惩罚参数的绝对值,使得模型参数倾向于稀疏化,即很多参数会趋近于零。这种稀疏性可以帮助进行特征选择,减少模型复杂度

L2:岭回归,高斯分布,L2正则化通过惩罚参数的平方,使得模型参数的值保持较小,但不会将参数完全置为零。这种正则化方法有助于平滑模型,避免过拟合。

8.回归问题常用得模型评估方法

均方误差:MSE预测值与实际值之差的平方的平均值。MSE的值越小,表示模型的预测结果越接近实际值,模型的性能越好。

均方根误差RMESE:均方误差(MSE)的平方根,它衡量的是模型预测值与实际值之间的标准差。RMSE的值越小,表示模型的预测结果越接近实际值,模型的性能越好

和方误差:SSE=i=1∑n​(yi​−y^​i​)2

平均绝对误差MAE:计算的是模型预测值与实际值之差的绝对值的平均值。

平均绝对百分比误差MAPE

决定系数:表示模型解释的因变量的方差比例。R2的值介于0和1之间,值越接近1,表示模型对数据的拟合越好,即模型解释的方差比例越高

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/973697.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

第3章 3.3日志 .NET Core日志 NLog使用教程

3.3.1 .NET Core日志基本使用 书中介绍了把日志输出到控制台的使用方式: 安装 Microsoft.Extensions.Logging 和 Microsoft.Extensions.Logging.Console 日志记录代码: using Microsoft.Extensions.DependencyInjection; using Microsoft.Extensions.…

Springboot的jak安装与配置教程

目录 Windows系统 macOS系统 Linux系统 Windows系统 下载JDK: 访问Oracle官网或其他JDK提供商网站,下载适合Windows系统的JDK版本。网站地址:Oracle 甲骨文中国 | 云应用和云平台点击进入下滑,点击进入下载根据自己的系统选择&…

Vue2是如何利用Object.defineProperty实现数据的双向绑定?

我们之前说道过Object.defineProperty方法有一关键特性,就是数据劫持,通过get/set 拦截属性的读取和修改操作。Vue主要是通过数据劫持结合发布-订阅模式来实现的,利用Object.defineProperty来劫持各个属性的setter和getter,在数据…

Transformer解析——(四)Decoder

本系列已完结,全部文章地址为: Transformer解析——(一)概述-CSDN博客 Transformer解析——(二)Attention注意力机制-CSDN博客 Transformer解析——(三)Encoder-CSDN博客 Transforme…

Vue前端开发-Vant之Layout组件

在Vant 中,Layout组件用于元素的响应式布局,分别由van-row和van-col两个组件来实现,前者表示行,后者被包裹在van-row组件中,表示列,共有24列栅格组成,在van-col组件中,span属性表示所…

【YOLOv8】损失函数

学习视频: yolov8 | 损失函数 之 5、类别损失_哔哩哔哩_bilibili yolov8 | 损失函数 之 6、定位损失 CIoU DFL_哔哩哔哩_bilibili 2.13、yolov8损失函数_哔哩哔哩_bilibili YOLOv8 的损失函数由类别损失和定位损失构成 类别损失:BCE Loss 定位损失…

Mac系统下使用Docker快速部署MaxKB:打造本地知识库问答系统

随着大语言模型的广泛应用,知识库问答系统逐渐成为提升工作效率和个人学习的有力工具。MaxKB是一款基于LLM(Large Language Model)大语言模型的知识库问答系统,支持多模型对接、文档上传和自动爬取等功能。本文将详细介绍如何在Ma…

(Arxiv-2025)ImageRAG:用于参考引导图像生成的动态图像检索

ImageRAG:用于参考引导图像生成的动态图像检索 paper是Tel Aviv University发布在Arxiv 2025的工作 paper title:ImageRAG: Dynamic Image Retrieval for Reference-Guided Image Generation Code:链接 图 1:使用参考图像扩展图像生成模型的生成能力。 在…

企业知识管理平台重构数字时代知识体系与智能服务网络

内容概要 现代企业知识管理平台的演进呈现出全生命周期管理与智能服务网络构建的双重特征。通过四库体系(知识采集库、加工库、应用库、评估库)的协同运作,该系统实现了从知识沉淀、结构化处理到价值释放的完整闭环。其中,知识图…

高级推理的多样化推理与验证

25年2月来自波士顿大学、NotBadMath.AI、谷歌、哥伦比亚大学、MIT、Intuit公司和斯坦福大学的论文“Diverse Inference and Verification for Advanced Reasoning”。 OpenAI o1、o3 和 DeepSeek R1 等推理 LLM 在数学和编码方面取得重大进展,但仍发现 IMO 组合问题…

23.1 WebBrowser控件

版权声明:本文为博主原创文章,转载请在显著位置标明本文出处以及作者网名,未经作者允许不得用于商业目的。 WebBrowser控件类似于IE浏览器的文档界面(事实上IE也是使用的这个控件),它提供了显示网页及支持…

Django-Vue 学习-VUE

主组件中有多个Vue组件 是指在Vue.js框架中,主组件是一个父组件,它包含了多个子组件(Vue组件)。这种组件嵌套的方式可以用于构建复杂的前端应用程序,通过拆分功能和视图,使代码更加模块化、可复用和易于维…

计算机网络安全之一:网络安全概述

1.1 网络安全的内涵 随着计算机和网络技术的迅猛发展和广泛普及,越来越多的企业将经营的各种业务建立在Internet/Intranet环境中。于是,支持E-mail、文件共享、即时消息传送的消息和协作服务器成为当今商业社会中的极重要的IT基础设施。然而&#xff0…

AI学习指南DeepSeek篇(6)-DeepSeek论文介绍

1. DeepSeek LLM: Scaling Open-Source Language Models with Longtermism 发布时间: 2024 年 1 月 5 日 主要内容: 基于 Transformer 架构,采用分组查询注意力(GQA)优化推理成本。 支持多步学习率调度器,提升训练效率。 在预训练和对齐(监督微调与 DPO)方面进行了创新…

刺客信条 枭雄 画质设置以及【锁帧60帧】的办法

刺客信条 枭雄 锁帧60帧的办法 画质设置帧率锁60帧办法 画质设置 关爱老电脑和GPU,适当设置一下画质 我们设置画面的时候,可以看游戏右上角的显存占用,进而观察自己这样设置,GPU的显存够不够: 环境质量:超…

适用于复杂背景的YOLOv8改进:基于DCN的特征提取能力提升研究

文章目录 1. YOLOv8的性能瓶颈与改进需求1.1 YOLOv8的优势与局限性1.2 可变形卷积(DCN)的优势 2. DCN在YOLOv8中的应用2.1 DCN的演变与YOLOv8的结合2.2 将DCN嵌入YOLOv8的结构中2.2.1 DCNv1在YOLOv8中的应用2.2.2 DCNv2与DCNv3的优化 2.3 实验与性能对比…

cesium视频投影

先看效果 使用cesium做视频投影效果,而且还要跟随无人机移动而移动,我现在用定时器更新无人机的坐标来实现效果具体代码如下: 1、CesiumVideo3d.js(某个cesium技术群大佬分享的) // import ECEF from "./CoordinateTranslate"; le…

滚珠花键在使用时需注意什么?

滚珠花键是一种直线运动系统,当花键套利用其中的钢球在经过精密磨削的花键轴上直线运动时,可以传递扭矩。在使用滚珠花键时,需要注意以下几个重要的事项: 1、不要擅自拆卸滚珠花键的各部分,因为这样可能会导致异物进入…

AI助力下的PPT革命:DeepSeek 与Kimi的高效创作实践

清华大学出品《DeepSeek:从入门到精通》分享 在忙碌的职场中,制作一份高质量的PPT往往需要投入大量时间和精力,尤其是在临近截止日期时。今天,我们将探索如何借助 AI 工具 —— DeepSeek 和 Kimi —— 让 PPT 制作变得既快捷又高…

PcVue : 点亮马来西亚砂拉越偏远村庄

导读 背景简介 新项目的需求 实施亮点 成果 背景简介 2021年,砂拉越能源公司(Sarawak Energy Berhad)启动了一项意义非凡的项目-借助太阳能、微型水力发电机等可再生能源,为砂拉越州偏远村庄送去光明与动力。然而&#xff0c…