逻辑回归为什么使用交叉熵而不用均方差?



逻辑回归为什么使用交叉熵而不用均方差?或者说逻辑回归的损失函数为什么不用最小二乘?

下面主要从两个角度进行阐述:

  • 从逻辑回归的角度出发,逻辑回归的预测值是一个概率,而交叉熵又表示真实概率分布与预测概率分布的相似程度,因此选择使用交叉熵
  • 从均方差(MSE)的角度来说,预测值概率与欧式距离没有任何关系,并且在分类问题中,样本的值不存在大小比较关系,与欧式距离更无关系,因此不适用MSE

1、损失函数的凸性(使用MSE可能会陷入局部最优)

前面我们在介绍线性回归时,我们用到的损失函数是误差(残差)平方和

L = ∑ i = 1 m ( y i − y ^ i ) 2 = ∑ i = 1 m ( y i − x i ω ) 2 L=\sum_{i=1}^m(y_i-\hat y_i)^2=\sum_{i=1}^m(y_i-x_i\omega)^2 L=i=1m(yiy^i)2=i=1m(yixiω)2

这是一个凸函数,有全局最优解

如果逻辑回归也使用误差平方和,由于逻辑回归假设函数的外层函数是Sigmoid函数,Sigmoid函数是一个复杂的非线性函数,这就使得我们将逻辑回归的假设函数代入上式时,即
L = ∑ i = 1 m ( y i − 1 1 + e − x i ω ) 2 L=\sum_{i=1}^m\left(y_i-\frac{1}{1+e^{-x_i\omega}}\right)^2 L=i=1m(yi1+exiω1)2

那么,我们得到的 L L L是一个非凸函数,不易优化,容易陷入局部最优解。所以逻辑回归的损失函数使用的是对数损失函数(Log Loss Function)

在逻辑回归(详见:传送门)一文中,我们已经给出了KL散度与交叉熵的关系
交叉熵 = K L 散度 + 信息熵 交叉熵=KL散度+信息熵 交叉熵=KL散度+信息熵

即交叉熵等于KL散度加上信息熵。而信息熵是一个常数,并且在计算的时候,交叉熵相较于KL散度更容易,所以我们直接使用了交叉熵作为损失函数

因此,我们在最小化交叉熵的时候,实际上就是在最小化 KL散度,也就是在让预测概率分布尽可能地与真实概率分布相似

2、MSE的损失小于交叉熵的损失(导致对分类错误点的惩罚不够)

逻辑回归的数学表达式如下
h θ ( x ) = g ( θ T x ) = 1 1 + e − θ T x h_\theta(x)=\rm g(\theta^Tx)=\frac{1}{1+e^{-\theta^Tx}} hθ(x)=g(θTx)=1+eθTx1

对于一元逻辑回归,其预测值为
y ^ = σ ( ω x + b ) \hat y = \sigma(\omega x+b) y^=σ(ωx+b)

其中, σ \sigma σSigmoid函数

如果使用均方差作为损失函数,我们以一个样本为例,为方便计算,我们给均方差除以2(不改变函数的单调性)
C = 1 2 ( y − y ^ ) 2 C=\frac{1}{2}(y-\hat y)^2 C=21(yy^)2

其中 y ^ \hat y y^= σ ( z ) \sigma(z) σ(z)= 1 1 + e − z \frac{1}{1+e^{-z}} 1+ez1 z z z= ω x + b \omega x+b ωx+b,使用梯度下降法对 ω \omega ω进行更新,那么就需要将损失函数对 ω \omega ω进行求偏导数
∂ C ∂ ω = ( y − y ^ ) σ ′ ( z ) x = ( y − y ^ ) y ^ ( 1 − y ^ ) x \frac{\partial C}{\partial \omega}=(y-\hat y)\sigma'(z)x=(y-\hat y)\hat y(1-\hat y)x ωC=(yy^)σ(z)x=(yy^)y^(1y^)x

具体计算过程可参考如下或文末参考文章

在这里插入图片描述

可以看到,均方差损失函数的梯度与激活函数(Sigmoid函数)的梯度成正比,当预测值接近于1或0时,梯度会变得非常小,几乎接近于0,这样会导致当真实值与预测值差距很大时,损失函数收敛的很慢,无法进行有效学习,与我们的期望不符合

因此,如果使用均方差损失,训练的时候可能看到的情况是预测值和真实值之间的差距越大,参数调整的越小,训练的越慢

如果使用交叉熵作为损失函数,对于二分类问题,交叉熵的形式是由极大似然估计下概率的连乘然后取对数得到的(推导见文章:传送门)
C = − [ y ln ⁡ y ^ + ( 1 − y ) ln ⁡ ( 1 − y ^ ) ] C=-[y\ln \hat y +(1-y)\ln (1-\hat y)] C=[ylny^+(1y)ln(1y^)]

关于 ω \omega ω求偏导数得
∂ C ∂ ω = ( σ ( z ) − y ) x \frac{\partial C}{\partial \omega}=(\sigma(z)-y)x ωC=(σ(z)y)x

可以看到,交叉熵损失函数的梯度和当前预测值与真实值之间的差是有关的,没有受到Sigmoid函数的梯度的影响,且真实值与预测值的差越大,损失函数的梯度就越大,更新的速度也就越快,这正是我们想要的



参考文章:https://zhuanlan.zhihu.com/p/453411383?login=from_csdn


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/400194.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

(C++) 详解内存地址空间

详解内存空间 0. 概述 一个C/C 程序,编译之后,形成的程序,在执行期间,内存中不仅存在一块区域用于存放代码,还有一些其他的区域用于使用,本节会详解C/C内部所使用的内存地址空间,关于各内存的…

每日OJ题_二叉树dfs③_力扣814. 二叉树剪枝

目录 力扣814. 二叉树剪枝 解析代码 力扣814. 二叉树剪枝 814. 二叉树剪枝 难度 中等 给你二叉树的根结点 root ,此外树的每个结点的值要么是 0 ,要么是 1 。 返回移除了所有不包含 1 的子树的原二叉树。 节点 node 的子树为 node 本身加上所有 n…

深入探索Selenium自动化测试:基础、代码实战与最佳实践【第90篇—Selenium自动化测试】

文章目录 深入探索Selenium自动化测试:基础、代码实战与最佳实践什么是Selenium?安装Selenium基础用法启动浏览器查找元素操作元素 代码实战:模拟登录进阶用法等待元素出现处理弹窗执行JavaScript 高级应用:Selenium Grid启动Sele…

压缩感知常用的测量矩阵

测量矩阵的基本概念 在压缩感知(Compressed Sensing,CS)理论中,测量矩阵(也称为采样矩阵)是实现信号压缩采样的关键工具。它是一个通常为非方阵的矩阵,用于将信号从高维空间映射到低维空间&…

基于vue框架的环保知识普及平台设计与实现

项目:基于vue框架的环保知识普及平台设计与实现 目 录 摘要 I Abstract II 第1章 引言 1 1.1 研究的背景 1 1.2 目的和意义 1 1.3 设计思路 1 1.4 研究的主要内容 2 第2章 相关原理和技术 3 2.1 B/S 模式体系结构 3 2.2 Springboot技术 4 2.3 访问数据库…

“中国国安部紧急警告”!境外公司利用加密货币诱使人员非法采集空间数据!当心不慎成“帮凶”!

随着加密货币的普及,每天都有新的区块链项目出现,目前市场上已经有成千上万种不同的加密货币 一些项目可能因其名人光环、运作机制、出色的代币经济学、或是提供优良的服务而受到市场亲睐,但也有很多项目缺乏大众的关注,或是尚未有…

机器学习——强化学习作业

作业内容 成功降落在两个黄色旗子中间为成功,其他为失败 Policy Gradient方法 Actor-Critic方法 范例结果 baseline Policy Gradient实现

初阶数据结构之---顺序表和链表(C语言)

引言-线性表 线性表: 线性表(linear list)是n个具有相同特性的数据元素的有限序列。 线性表是一种在实际中广泛使用的数据结构。线性表在逻辑上是线性结构,也就是说是连续的一条直线。但在物理上并不一定是连续的。线性表在物理上…

OSQP文档学习

OSQP官方文档 1 QSQP简介 OSQP求解形式为的凸二次规划: x ∈ R n x∈R^n x∈Rn:优化变量 P ∈ S n P∈S^n_ P∈Sn​:半正定矩阵 特征 (1)高效:使用了一种自定义的基于ADMM的一阶方法,只需…

【Flink精讲】Flink内核源码分析:命令执行入口

官方推荐per-job模式,一个job一个集群,提交时yarn才分配集群资源; 主要的进程:JobManager、TaskManager、Client 提交命令:bin/flink run -t yarn-per-job /opt/module/flink-1.12.0/examples/streaming/SocketWind…

什么是CODESYS开发系统

CODESYS是一种用于工业自动化领域的开发系统软件,提供了一个完整集成的开发环境。该软件由德国CODESYS GmbH(原 3S-Smart Software Solutions GmbH)公司开发,其最新版本为CODESYS V3。 CODESYS开发系统具有多种特性和优点。首先&a…

Linux内核解读

来自鹅厂架构师 作者:aurelianliu 工作过程中遇到的调度、内存、文件、网络等可以参考。 1.os运行态 X86架构,用户态运行在ring3,内核态运行在ring0,两个特权等级。 (1)内核、一些特权指令,例…

JS实现根据数组对象的某一属性排序

JS实现根据数组对象的某一属性排序 一、冒泡排序(先了解冒泡排序机制)二、根据数组对象的某一属性排序(引用sort方法排序) 一、冒泡排序(先了解冒泡排序机制) 以从小到大排序为例,冒泡排序的原…

typescript映射类型

ts映射类型简介 TypeScript中的映射类型(Mapped Type)是一种高级类型,它允许我们基于现有类型创建新的类型,同时对新类型的每个属性应用一个转换函数。通过使用映射类型,我们可以方便地对对象的属性进行批量操作&…

人工智能深度学习

目录 人工智能 深度学习 机器学习 神经网络 机器学习的范围 模式识别 数据挖掘 统计学习 计算机视觉 语音识别 自然语言处理 机器学习的方法 回归算法 神经网络 SVM(支持向量机) 聚类算法 降维算法 推荐算法 其他 机器学习的分类 机器…

文献速递:GAN医学影像合成--用生成对抗网络生成 3D TOF-MRA 体积和分割标签

文献速递:GAN医学影像合成–用生成对抗网络生成 3D TOF-MRA 体积和分割标签 01 文献速递介绍 深度学习算法在自然图像分析中的成功近年来已被应用于医学成像领域。深度学习方法已被用于自动化各种耗时的手动任务,如医学图像的分割和分类(G…

软件测试面试,大厂上岸究竟有什么秘诀?

最后,总结一下个人认为比较重要的知识点:接口自动化测试 :测试框架,多个有关联的接口的用例编写,用例的组织及存储,接口测试的覆盖率,RESTAssured 的封装等。UI 自动化测试 :iOS 和 …

【2024美赛】C题 Momentum in Tennis网球运动中的势头 25页中英文论文及Python代码

【2024美赛】C题 Momentum in Tennis网球运动中的势头 25页中文论文 1 题目 A题:2024MCM问题C:网球运动中的势头 在2023年温布尔登网球公开赛男子组决赛中,20岁的西班牙新星卡洛斯-阿尔卡拉斯击败了36岁的诺瓦克-德约科维奇。这是德约科维奇…

Hypervisor是什么

Hypervisor 通常指的是虚拟机监视器(VirtualMachine Monitor),它是一种软件或硬件,可以在物理服务器上创建和管理多个虚拟机(VirtualMachine)。 Hypervisor 提供了一个抽象层,将物理服务器的资源…

Nginx 配置详解

官网:http://www.nginx.org/ 序言 Nginx是lgor Sysoev为俄罗斯访问量第二的rambler.ru站点设计开发的。从2004年发布至今,凭借开源的力量,已经接近成熟与完善。 Nginx功能丰富,可作为HTTP服务器,也可作为反向代理服务…