机器学习——损失函数、代价函数、KL散度

🌺历史文章列表🌺

  1. 机器学习——损失函数、代价函数、KL散度
  2. 机器学习——特征工程、正则化、强化学习
  3. 机器学习——常见算法汇总
  4. 机器学习——感知机、MLP、SVM
  5. 机器学习——KNN
  6. 机器学习——贝叶斯
  7. 机器学习——决策树
  8. 机器学习——随机森林、Bagging、Boosting、集成学习
  9. 机器学习——聚类算法(Kmeans、GMM-使用EM优化)
  10. 机器学习——降维

文章目录

  • 损失函数
    • 一、回归问题中的损失函数
      • 1. 均方误差(Mean Squared Error, MSE)
      • 2. 平均绝对误差(Mean Absolute Error, MAE)
      • 3. 对数余弦损失(Log-Cosh Loss)
      • 4. Huber 损失(Huber Loss)
      • 5. 平均平方对数误差(Mean Squared Logarithmic Error, MSLE)
      • 总结
    • 二、分类问题中的损失函数
      • 1. 0-1 损失(0-1 Loss)
      • 2. 对数损失(Log Loss)或交叉熵损失(Cross-Entropy Loss)
      • 3. Focal 损失(Focal Loss)
      • 4. Hinge 损失(合页损失)
      • 5. Kullback-Leibler 散度(KL Divergence)
      • 总结
  • 代价函数
      • 1. 回归问题中的代价函数
      • 2. 分类问题中的代价函数
  • 损失函数和代价函数的选择
    • 1. 如何选择适当的损失函数?
    • 2. 损失函数和代价函数的优化
  • KL散度
    • 描述
    • KL散度的特点
      • KL散度的常见应用场景
      • 1. 变分自编码器(Variational Autoencoder, VAE)中的损失函数
      • 2. 分类问题中的交叉熵损失
      • 3. 强化学习中的策略优化
      • 4. 生成模型中的正则化项
      • 5. 多任务学习中的权衡损失
      • 6. T-SNE
      • 总结


在机器学习中,损失函数代价函数是评估模型性能的重要工具。

  • 损失函数衡量单个样本的预测值与真实值之间的差异。
  • 代价函数则是所有样本的损失的平均值或总和,用于衡量模型在整个数据集上的表现。

不同的任务和模型选择不同的损失函数和代价函数,以反映其特定的优化目标。

损失函数

一、回归问题中的损失函数

1. 均方误差(Mean Squared Error, MSE)

定义
在这里插入图片描述

  • 描述:MSE 衡量的是预测值和真实值之间的平方误差的平均值。对较大的误差会进行更大的惩罚,因此它对异常值(outliers)非常敏感。
  • 应用场景:线性回归、岭回归等模型的损失函数。
  • 优点:简单易于理解,容易求导和计算。
  • 缺点对异常值敏感,可能导致模型被少数异常样本主导。

2. 平均绝对误差(Mean Absolute Error, MAE)

定义
在这里插入图片描述

  • 描述:MAE 衡量的是预测值和真实值之间的绝对误差的平均值。它对每个误差的惩罚是线性的,因此对异常值的惩罚不如 MSE 严重。
  • 应用场景:在对异常值不敏感的回归任务中使用。
  • 优点对异常值不敏感,能够更加稳定地反映模型性能。
  • 缺点:在优化过程中,绝对值函数不可导,求解困难。

3. 对数余弦损失(Log-Cosh Loss)

定义
在这里插入图片描述

  • 描述:对数余弦损失是Huber 损失的变体,它的行为类似于 MAE,同时对大误差有更小的增长率。
  • 应用场景:适用于异常值影响较大的回归任务。
  • 优点:具有平滑性,易于求导对小误差敏感对大误差鲁棒
  • 缺点:相比其他损失函数计算复杂度较高。

4. Huber 损失(Huber Loss)

定义
在这里插入图片描述

  • 描述:Huber 损失是MSE 和 MAE 的折中。对于小误差,使用 MSE;对于大误差,使用 MAE,从而对异常值有一定的鲁棒性。
  • 应用场景:回归问题中存在异常值,但又不希望过于忽略异常值的场景。
  • 优点对小误差敏感,同时对大误差具有一定的抗干扰性
  • 缺点:参数 ( δ \delta δ) 需要手动调节,不同数据集效果不同。

5. 平均平方对数误差(Mean Squared Logarithmic Error, MSLE)

定义
在这里插入图片描述

  • 描述:MSLE 用于处理目标值差异较大有显著指数增长趋势的情况。它更关注相对误差,而非绝对误差。
  • 应用场景:如人口增长预测、市场销量预测等场景。
  • 优点:对大数值的预测更稳定,对目标值的比例关系有更好的衡量。
  • 缺点:当目标值非常小时,惩罚效果不明显。

总结

损失函数描述应用场景优点缺点
均方误差 (MSE)衡量预测值和真实值之间平方误差的平均值,对较大误差进行更大惩罚。线性回归、岭回归等简单易于理解,容易求导。对异常值敏感
平均绝对误差 (MAE)衡量预测值和真实值之间绝对误差的平均值对异常值不敏感的回归任务对异常值不敏感,反映模型性能更稳定。优化困难,绝对值函数不可导
对数余弦损失 (Log-Cosh)Huber 损失的变体,既能捕捉小误差,也对大误差有更小的增长率异常值影响较大的回归任务平滑性好,易于求导,适应大误差和小误差。计算复杂度高。
Huber 损失 (Huber Loss)结合MSE和MAE,小误差时使用 MSE,大误差时使用 MAE,平衡异常值的影响。存在异常值但不希望完全忽略的场景对小误差敏感,对大误差有抗干扰性。需调节参数 (delta)。
平均平方对数误差 (MSLE)衡量目标值差异大且有指数增长趋势的情况,关注相对误差而非绝对误差。人口增长预测、市场销量预测等对大数值预测更稳定,适应有比例关系的数据对极小值目标效果不佳。

二、分类问题中的损失函数

1. 0-1 损失(0-1 Loss)

定义
在这里插入图片描述

  • 描述:0-1 损失表示分类是否正确0 为正确分类,1 为错误分类。它无法直接用于模型优化,只能用于评价模型性能。
  • 应用场景:模型性能的评估,如准确率(Accuracy)的计算。
  • 优点:简单直观,能够清晰判断分类是否正确。
  • 缺点不可导,无法用于梯度优化

2. 对数损失(Log Loss)或交叉熵损失(Cross-Entropy Loss)

在这里插入图片描述

  • 描述:交叉熵损失衡量的是预测分布和真实分布之间的距离。在二分类与 Sigmoid 函数结合;在多分类与 Softmax 函数结合
  • 应用场景:广泛用于逻辑回归、神经网络等分类任务。
  • 优点:能够很好地度量概率分布之间的差异,梯度计算简单。
  • 缺点对数据不平衡较为敏感

在这里插入图片描述
在这里插入图片描述

3. Focal 损失(Focal Loss)

定义
在这里插入图片描述

注:t 是该样本的真实类别标签
在这里插入图片描述

  • 描述:Focal 损失是对交叉熵损失的改进,用于解决类别不平衡问题。通过调节参数 ( γ \gamma γ ) 和 ( α \alpha α ),它增加了对困难样本的关注,降低了对易分类样本的影响。
  • 应用场景:目标检测中的单阶段检测器(如 RetinaNet),以及其他类别不平衡的分类问题。
  • 优点:有效解决类别不平衡问题,增强模型对困难样本的关注。
  • 缺点:参数选择复杂,训练时间较长。

4. Hinge 损失(合页损失)

在这里插入图片描述

  • 描述:Hinge 损失用于支持向量机(SVM)中。它在样本被正确分类且间隔大于 1 时,损失为 0;否则损失为 1。旨在最大化样本的分类间隔。
  • 应用场景:线性支持向量机、核支持向量机等。
  • 优点:有助于最大化分类间隔,提高模型的泛化能力。
  • 缺点:对于误差大的样本损失增长过快。

5. Kullback-Leibler 散度(KL Divergence)

定义
在这里插入图片描述

  • 描述:KL 散度衡量两个概率分布之间的差异,常用于无监督学习中的聚类分析
  • 应用场景:概率模型的优化,如变分自编码器(VAE)、生成对抗网络(GAN)中的判别模型。
  • 优点:对概率分布之间的微小差异非常敏感
  • 缺点:对稀疏分布的概率模型不稳定

总结

损失函数描述应用场景优点缺点
0-1 损失 (0-1 Loss)分类正确为 0,错误为 1,用于衡量分类是否正确。准确率等分类性能评估简单直观。不可导,无法用于优化
交叉熵损失 (Cross-Entropy)衡量预测分布和真实分布之间的距离,二分类结合 Sigmoid,多分类结合 Softmax。逻辑回归、神经网络等分类任务很好地衡量概率分布差异,梯度计算简单。对数据不平衡敏感
Focal 损失 (Focal Loss)交叉熵的改进,通过调节 ( gamma ) 和 ( alpha ),增加对困难样本的关注,减少易分类样本影响,解决类别不平衡问题。类别不平衡问题,如目标检测 (RetinaNet)增强对困难样本的关注,解决类别不平衡参数选择复杂,训练时间较长。
Hinge 损失 (合页损失)用于 SVM,正确分类且间隔大于 1 时损失为 0,旨在最大化分类间隔。线性 SVM、核 SVM提高泛化能力,有助于最大化分类间隔对误差大的样本损失增长快。
KL 散度 (KL Divergence)衡量两个概率分布的差异,常用于无监督学习中的聚类分析。概率模型优化,如 VAE、GAN概率分布的差异敏感稀疏分布不稳定

代价函数

代价函数是损失函数在整个训练集上的平均或总和,用于衡量模型在整个数据集上的表现

代价函数 = 所有样本的损失函数的平均值或总和。因此,代价函数通常是通过对每个样本的损失函数进行求和或求平均得到的。

1. 回归问题中的代价函数

均方误差代价函数(Cost Function for MSE)
在这里插入图片描述

  • 描述:均方误差代价函数用于衡量模型预测值与真实值之间的总体误差。
  • 应用场景:线性回归、岭回归等回归任务。

2. 分类问题中的代价函数

对数损失代价函数(Cost Function for Log Loss)
在这里插入图片描述

  • 描述:对数损失代价函数用于二分类任务,衡量模型预测概率与真实分布之间的差异。
  • 应用场景:逻辑回归、神经网络的二分类问题。

损失函数和代价函数的选择

1. 如何选择适当的损失函数?

  • 回归问题
    • 数据中存在异常值时,可以选择 MAEHuber 损失
    • 如果异常值较少误差分布相对均匀,【对大误差容忍度低时】可以选择 MSE
    • 数据有显著的指数增长趋势时,选择 MSLE

MAE 和 Huber 损失减少异常值对损失和模型的过度影响,所以适合存在较多异常值的情况。它们的目标是在存在异常值的情况下,保持模型对大多数数据的稳定性和准确性。

  • 分类问题
    • 二分类问题:常用 交叉熵损失
    • 多分类问题:使用 Softmax + 交叉熵损失
    • 类别不平衡时:选择 Focal 损失

2. 损失函数和代价函数的优化

  • 梯度下降法:用于最小化代价函数,找到模型参数的最优解。
  • 正则化:在代价函数中加入正则化项(L1 或 L2)防止模型过拟合。

总结来说,损失函数和代价函数是机器学习模型优化的核心工具,选择合适的损失函数能够帮助模型更好地学习数据的特性,并提高模型的性能和鲁棒性。

KL散度

描述

KL散度是一种用于衡量两个概率分布之间差异的度量。在信息论中,它也称为相对熵,用于表达当我们用分布 ( Q Q Q ) 来近似真实分布 ( P P P ) 时,所损失的信息量。
在这里插入图片描述

KL散度的特点

KL 散度的三个性质:非负性、非对称性和无界性。

  1. 非负性
    KL 散度始终非负,( D K L ( P ∥ Q ) ≥ 0 D_{KL}(P \parallel Q) \geq 0 DKL(PQ)0 ),并且仅当 ( P = Q P = Q P=Q ) 时,KL 散度为 0。这意味着两个分布越相似,KL 散度越小。当两个分布完全相同时,KL 散度为零,即没有信息损失。

  2. 非对称性
    KL 散度不是对称的,( D K L ( P ∥ Q ) ≠ D K L ( Q ∥ P D_{KL}(P \parallel Q) \neq D_{KL}(Q \parallel P DKL(PQ)=DKL(QP) ),因此它并不是一个真正的距离度量。KL 散度衡量的是使用分布 ( Q Q Q ) 来近似分布 ( P P P ) 的信息损失,因此方向性很重要,交换两个分布后,信息损失会不同。

  3. 无界性
    KL 散度可以趋向无穷大,特别是在 ( Q ( i ) = 0 Q(i) = 0 Q(i)=0 ) 且 ( P ( i ) > 0 P(i) > 0 P(i)>0 ) 的情况下。因为 ( log ⁡ ( 0 ) \log(0) log(0) ) 趋于负无穷,这意味着如果 ( Q Q Q ) 对某个事件的概率估计为零,而 ( P P P ) 认为这个事件是可能的,那么使用 ( Q Q Q ) 来近似 ( P P P ) 的信息损失会非常大,导致 KL 散度无限大。


KL散度的常见应用场景

KL散度常在处理概率分布的模型中作为损失函数的一部分。通过在损失函数中加入KL散度,模型可以在多个任务中有效地优化预测分布与真实分布之间的差异。以下是KL散度作为损失函数一部分的几种常见应用:

1. 变分自编码器(Variational Autoencoder, VAE)中的损失函数

在VAE中,损失函数包含两部分:

  • 重构误差:衡量重建的输出和输入数据的差异(通常是均方误差或二元交叉熵)。
  • KL散度:衡量潜在变量的后验分布先验分布(通常是标准正态分布) 之间的差异
    在这里插入图片描述
    KL散度项确保潜在空间的分布接近于标准正态分布,从而提高生成数据的连续性和多样性。

2. 分类问题中的交叉熵损失

分类问题中的交叉熵损失实际上可以看作是KL散度的一种形式。在分类问题中,真实标签通常表示为one-hot向量,模型输出的则是一个预测概率分布。最小化交叉熵损失就是最小化真实分布和预测分布之间的KL散度。
在这里插入图片描述

由于真实分布 ( P ) 是one-hot形式,所以 H( P ) 是常数,最小化交叉熵损失等价于最小化KL散度。

3. 强化学习中的策略优化

在强化学习中,KL散度可以作为策略更新中的约束确保新策略 ( π’ ) 和旧策略 ( π ) 不偏离太远。这种方法通过将KL散度作为损失函数的一部分进行优化,以确保策略的平稳更新。

在这种情况下,目标是通过最小化以下损失函数进行策略更新:
在这里插入图片描述

4. 生成模型中的正则化项

KL散度也常用于生成对抗网络(GAN)和其他生成模型中的正则化项。通过引入KL散度,模型可以保持生成分布与某个目标分布的接近度。这通常用于引导生成样本的多样性和稳定性。

5. 多任务学习中的权衡损失

在某些多任务学习场景中,KL散度可以用来衡量某一任务的输出分布与其他任务输出分布的差异,从而引入额外的正则化约束,以便各任务在共享网络中的学习互不冲突。

6. T-SNE

总结

KL散度是一种广泛应用于机器学习和深度学习中的度量工具,尤其是在涉及概率分布的场景中。其主要用于衡量模型预测的分布与真实分布的差异,并通过最小化KL散度来优化模型表现。具体应用场景包括:

  • 变分自编码器中的潜在分布优化
  • 分类任务中的交叉熵损失
  • 强化学习中的策略更新约束
  • 生成模型中的分布正则化

通过将KL散度引入损失函数,模型可以在复杂任务中更好地平衡生成质量、分布匹配以及策略优化的需求。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/913785.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Word大珩助手:超大数字怎么读?35位数字?69位数字?

俄罗斯日前对谷歌开出了20000000000000000000000000000000000(35位数字)美元的罚款 这一数字远超全球GDP总和,消息一出很快就登上热搜。 面对这样一个庞大的数字,人们不禁好奇,这样的数字该如何读出来? …

ODOO学习笔记(2):核心功能是哪些?

Odoo的核心功能主要包括以下几个方面: 客户关系管理(CRM):Odoo的CRM工具管理公司与客户和潜在客户的所有关系和互动,提供一个集中式系统来管理销售活动,从潜在客户培育到达成交易。CRM模块包括报告和分析功…

JUC学习

JUC 1、什么是JUC? ​ JUC是java.util.concurrent包的简称,在Java5.0添加,目的就是为了更好的支持高并发任务。在 Java 5.0 提供了 java.util.concurrent(简称JUC)包,在此包中增加了在并发编程中很常用的工具类,用于定义类似于线程的自定义…

Kafka面试题解答(二)

1.怎么尽可能保证 Kafka 的可靠性 kafka是可能会出现数据丢失问题的,Leader维护了一个动态的in-sync replica set(ISR),意为和 Leader保持同步的FollowerLeader集合(leader:0,isr:0,1,2)。如果Follower长时…

如何在算家云搭建Aatrox-Bert-VITS2(音频生成)

一、模型介绍 ‌ Aatrox - Bert -VITS2 模型是一种基于深度学习的语音合成系统,结合了 BERT 的预训练能力和 VITS2 的微调技术,旨在实现高质量的个性化语音合成。 二、模型搭建流程 1. 创建容器实例 进入算家云的“应用社区”,点击搜索找到…

PDF编辑工具Adobe Acrobat DC 2023安装教程(附安装包)

Adobe Acrobat DC 2023 是 Adobe 公司推出的一款功能强大的 PDF 文档处理软件。它不仅支持创建、编辑和签署 PDF 文件,还提供了丰富的工具来管理和优化这些文件。以下是 Acrobat DC 2023 的一些主要特点: 1.PDF 创建与编辑:用户可以直接从多…

【李白打酒加强版——DP】

题目 思路 三个注意点&#xff1a;k是偶数的状态才能是遇到店之后的状态、f[n-1][m][k]状态非法、不要越界 代码 #include <bits/stdc.h> using namespace std; const int N 110, mod 1e97; int f[N][N][N]; int main() {int n, m;cin >> n >> m;f[0][0]…

HarmonyOS ArkTS 下拉列表组件

Entry Component struct Index {defaultValue: string 下拉列表;// 定义选项数组&#xff0c;包含 value 和可选的 labeloptions: Array<SelectOption> [{ value: aaa },{ value: bbb },{ value: ccc },{ value: ddd },{ value: eee },{ value: fff },{ value: ggg },{…

云上盛宴-腾讯云双11活动玩法攻略

大家好呀&#xff01;我是reload。今天来给大家分享一下腾讯云双十一活动玩法攻略。一年一度的双十一购物盛宴又要来了&#xff0c;为了应对各种秒杀抢购而导致的用户访问量激增&#xff0c;平台可以通过云计算技术的弹性伸缩能力&#xff0c;迅速增加服务器资源&#xff0c;确…

【ubuntu18.04】使用U盘制作ubuntu18.04启动盘操作说明

打开show application 打开Startup Disk 选择镜像 双击选择ubuntu的iso镜像 镜像下载地址 Ubuntu 18.04.6 LTS (Bionic Beaver) 制作镜像 注意&#xff1a; 制作镜像会格式化U盘&#xff0c;记得备份资料 点击Make Startup Disk,弹出如下对话框 点击Yes 输入管理员密码&a…

html+js+css实现拖拽式便签留言

前些日子在网上冲浪时&#xff0c;看到一个便签式留言墙&#xff0c;让人耳目一新。心想这个看着不错&#xff0c;额想要。于是便开始搜寻是否有相应开源插件&#xff0c;想将其引入自己的博客中。但是搜寻了一圈&#xff0c;都没有符合预期的,要么功能不符合。有的功能符合&am…

前端 call、bind、apply的实际使用

目录 一、call 1、继承的子类可以使用父类的方法 2、可以接收任意参数 二、call、apply、bind比较 1、案例一 2、案例二 三、总结 这个三个方法都是改变函数的this指向的方法。 一、call 1、继承的子类可以使用父类的方法 function Animal(){//this 指向小catthis.eat…

【C++笔记】C++三大特性之继承

【C笔记】C三大特性之继承 &#x1f525;个人主页&#xff1a;大白的编程日记 &#x1f525;专栏&#xff1a;C笔记 文章目录 【C笔记】C三大特性之继承前言一.继承的概念及定义1.1 继承的概念1.2继承的定义1.3继承基类成员访问方式的变化1.4继承类模板 二.基类和派生类间的转…

点击文本将内容填入tinymce-vue 富文本编辑器的光标处

富文本编辑器组件 <template><div ref"tinymceBox" class"tinymce-box"><Editor id"myEditor" v-model"contentValue" :init"init" :disabled"disabled" blur"inputBlur" click"o…

智能家居的未来:AI让生活更智能还是更复杂?

内容概要 智能家居的概念源于将各种家居设备连接到互联网&#xff0c;并通过智能技术进行控制和管理。随着人工智能的迅速发展&#xff0c;这一领域也迎来了前所未有的机遇。从早期简单的遥控器到如今可以通过手机应用、语音助手甚至是环境感应进行操作的设备&#xff0c;智能…

Meta AI 新技术,赋予机器人 “触觉” 的革命

Meta AI 新技术&#xff0c;赋予机器人 “触觉” 的革命 简介 传统机器人的局限 Meta AI 的新技术突破 技术应用前景 未来展望 简介 在科技飞速发展的今天&#xff0c;人工智能领域不断取得令人惊叹的突破。11月4日&#xff0c;Meta公司宣布其基础人工智能研究团队(FAIR)在…

微信小程序配置

1.进入微信小程序公众平台&#xff0c;进入后注册域名 2.项目接口代理 UniApp H5 跨域代理配置并使用&#xff08;配置manifest.json、vue.config.js&#xff09;_uniapp 代理-CSDN博客 我用了方法一 3.测试接口

IEEE JSSC更新|Tiny Tapeout:让每个人都能设计定制芯片

简介 由于成本高昂且需要专业技术&#xff0c;设计和制造定制集成电路的传统上仅限于大型公司和机构。然而&#xff0c;名为Tiny Tapeout的创新项目正在改变这一现状&#xff0c;让业余爱好者、学生和小型团队也能设计定制芯片。本文将探讨Tiny Tapeout的工作原理&#xff0c;以…

ubuntu 22.04 server 安装 anaconda3

ubuntu 22.04 server 安装 anaconda3 https://www.anaconda.com/download/success Anaconda Installers wget https://repo.anaconda.com/archive/Anaconda3-2024.10-1-Linux-x86_64.sh 其他的是 默认 Executing transaction: done installation finished. Do you wish to…

【SpringMVC】基础入门(1)

阿华代码&#xff0c;不是逆风&#xff0c;就是我疯 你们的点赞收藏是我前进最大的动力&#xff01;&#xff01; 希望本文内容能够帮助到你&#xff01;&#xff01; 目录 一&#xff1a;什么是Spring Web MVC 1&#xff1a;Servlet 2&#xff1a;总结 二&#xff1a;MVC …