[吃瓜教程]南瓜书第3章对数几率回归

第三章 对数几率回归

3.1 算法原理

对数几率回归(Logistic Regression)是一种统计方法,主要用于二分类问题。它通过拟合一个对数几率函数(logit function),即对数几率(log-odds)与输入变量的线性组合之间的关系,来预测一个事件发生的概率。其基本公式为:
l o g i t ( P ) = l n ( P 1 − P ) = β 0 + β 1 X 1 + β 2 X 2 + . . . + β n X n logit(P)=ln(\frac{P}{1-P})=\beta_0+\beta_1X_1+\beta_2X_2+...+\beta_nX_n logit(P)=ln(1PP)=β0+β1X1+β2X2+...+βnXn
其中,P是事件发生的概率, β 0 \beta_0 β0是截距, β 1 , β 2 , . . . , β n \beta_1,\beta_2,...,\beta_n β1,β2,...,βn是回归系数, X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn是输入变量。通过对参数 β \beta β进行估计,模型可以用于预测新数据点的分类结果。
简单来说,它是在线性模型的基础上套了一个映射函数来实现分类功能,在这里是套了一个 1 1 + e − z \frac{1}{1+e^{-z}} 1+ez1函数,其图像如下图所示:
在这里插入图片描述

3.2损失函数的极大似然估计推导(策略)

第一步: 确定概率质量函数(质量密度函数)
已知离散型随机变量 y ∈ { 0 , 1 } y\in{\{0,1\}} y{0,1}取值为1和0的概率分别建模为:
p ( y = 1 ∣ x ) = 1 1 + e − ( w T x + b ) = e w T x + b 1 + e w T x + b p(y=1|x)=\frac{1}{1+e^{-(w^Tx+b)}}=\frac {e^{w^Tx+b}}{1+e^{w^Tx+b}} p(y=1∣x)=1+e(wTx+b)1=1+ewTx+bewTx+b
p ( y = 0 ∣ x ) = 1 − p ( y = 1 ∣ x ) = 1 1 + e w T x + b p(y=0|x)=1-p(y=1|x)=\frac {1}{1+e^{w^Tx+b}} p(y=0∣x)=1p(y=1∣x)=1+ewTx+b1
通过以上概率取值可推得随机变量 y ∈ { 0 , 1 } y\in{\{0,1\}} y{0,1}的概率质量函数为
p ( y ∣ x ^ ; β ) = y ⋅ p 1 ( x ^ ; β ) + ( 1 − y ) ⋅ p 0 ( x ^ ; β ) p(y|\hat x;\beta)=y \cdot p_1(\hat x;\beta)+(1-y)\cdot p_0(\hat x;\beta) p(yx^;β)=yp1(x^;β)+(1y)p0(x^;β)
另一种表达是,
p ( y ∣ x ^ ; β ) = [ p 1 ( x ^ ; β ) ] y + [ p 0 ( x ^ ; β ) ] 1 − y p(y|\hat x;\beta)=[p_1(\hat x;\beta)]^y+[p_0(\hat x;\beta)]^{1-y} p(yx^;β)=[p1(x^;β)]y+[p0(x^;β)]1y
第二步: 写出似然函数
L ( β ) = ∏ i = 1 m p ( y i ∣ x ^ i ; β ) L(\beta)=\prod \limits_{i=1}^mp(y_i|\hat x_i;\beta) L(β)=i=1mp(yix^i;β)
对数似然函数为
l ( β ) = l n L ( β ) = ∑ i = 1 m p ( y i ∣ x ^ i ; β ) l(\beta)=lnL(\beta)=\sum_{i=1}^mp(y_i|\hat x_i;\beta) l(β)=lnL(β)=i=1mp(yix^i;β)
l ( β ) = ∑ i = 1 m l n ( y i p 1 ( x ^ i ; β ) + ( 1 − y i ) p 0 ( x ^ i ; β ) ) l(\beta)=\sum_{i=1}^mln(y_ip_1(\hat x_i;\beta)+(1-y_i)p_0(\hat x_i;\beta)) l(β)=i=1mln(yip1(x^i;β)+(1yi)p0(x^i;β))
带入化简得:
l ( β ) = ∑ i = 1 m ( y i β T x ^ i − l n ( 1 + e β T x ^ i ) ) l(\beta)=\sum_{i=1}^m(y_i\beta^T\hat x_i-ln(1+e^{\beta^T\hat x_i})) l(β)=i=1m(yiβTx^iln(1+eβTx^i))
最后取反即得到西瓜书得式(3.27),即对小化损失函数。

3.3损失函数的信息论推导(策略)

信息论(Information Theory)是一门研究信息的度量、传输和处理的科学。它由克劳德·香农(Claude Shannon)在20世纪中期创立。信息论的应用广泛,包括数据压缩、加密、通信系统设计、机器学习等领域。通过量化信息和不确定性,信息论为理解和优化信息处理系统提供了理论基础。
关键概念:
1.自信息:在信息论中,自信息(Self-Information),又称为信息量或惊讶度,是一个度量事件不确定性的概念。自信息量用于描述单个事件的置信度或信息含量。其定义如下:
I ( x ) = − l o g P ( x ) I(x)=-logP(x) I(x)=logP(x)
其中,I(x)是事件x的自信息量,P(x)是事件x发生的概率,log 表示对数运算,可以是以2为底(通常用于信息论中的单位为比特)或以自然对数为底(单位为纳特,nats)。
2.信息熵(Entropy)是信息论中的一个核心概念,用来衡量一个随机变量的不确定性或信息量。它是由克劳德·香农(Claude Shannon)在其1948年的论文《通信的数学理论》中提出的,因此有时也称为香农熵。信息熵的定义如下:
H ( X ) = − ∑ i P ( x i ) l o g P ( x i ) H(X)=-\sum_iP(x_i)logP(x_i) H(X)=iP(xi)logP(xi)
其中:
H ( X ) H(X) H(X)是随机变量X的熵;
P ( x i ) P(x_i) P(xi)是随机变量X取值为 x i x_i xi的概率。
log是对数运算
要注意的一点是,当 p ( x ) = 0 p(x)=0 p(x)=0,则 p ( x ) l o g b p ( x ) = 0 p(x)log_bp(x)=0 p(x)logbp(x)=0
3.相对熵(Relative Entropy),也称为Kullback-Leibler散度(Kullback-Leibler Divergence, 简称KL散度),是信息论中用来衡量两个概率分布之间差异的非对称度量。它描述了从一个分布到另一个分布的额外信息量或“代价”。相对熵的定义如下:
对于两个概率分布P和Q,相对熵 D K L ( P ∣ ∣ Q ) D_{KL}(P||Q) DKL(P∣∣Q)定义为:
D K L ( P ∣ ∣ Q ) = ∑ x ∈ X P ( x ) l o g P ( x ) Q ( x ) D_{KL}(P||Q)=\sum_{x\in \mathcal X}P(x)log \frac{P(x)}{Q(x)} DKL(P∣∣Q)=xXP(x)logQ(x)P(x)
其中,
P和Q是定义在同一随机变量X上的两个概率分布;
X \mathcal X X是X的取值范围;
log是对数运算。
上面的式子可以化为:
D K L ( p ∣ ∣ q ) = ∑ x p ( x ) l o g p ( x ) − ∑ x p ( x ) l o g b q ( x ) D_{KL}(p||q)=\sum_{x}p(x)log p(x)-\sum_xp(x)log_bq(x) DKL(p∣∣q)=xp(x)logp(x)xp(x)logbq(x)
可以看到上面的式子的后半部分就是交叉熵。由于理想分布p(x)是未知但固定的分布(频率学派的角度),所以式子的前办部分是一个常量,那么最小化相对熵就等价于最小化交叉熵。
以对数几率回归为例,对单个样本 y i y_i yi来说,它的理想分布是
p ( y i ) = { p ( 1 ) = 1 , p ( 0 ) = 0 , y i = 1 p ( 1 ) = 0 , p ( 0 ) = 1 , y i = 0 p(y_i)=\left\{ \begin{aligned} p(1)=1,p(0)=0,y_i=1 \\ p(1)=0,p(0)=1,y_i=0\\ \end{aligned} \right. p(yi)={p(1)=1,p(0)=0,yi=1p(1)=0,p(0)=1,yi=0
模拟分布为:
q ( y i ) = { e β T x ^ 1 + e β T x ^ = p 1 ( x ^ ; β ) , y i = 1 1 1 + e β T x ^ = p 0 ( x ^ ; β ) , y i = 0 q(y_i)=\left\{ \begin{aligned} \frac{e^{\beta^T\hat x}}{1+e^{\beta^T\hat x}}=p_1(\hat x;\beta),y_i=1 \\ \frac{1}{1+e^{\beta^T\hat x}}=p_0(\hat x;\beta),y_i=0\\ \end{aligned} \right. q(yi)= 1+eβTx^eβTx^=p1(x^;β),yi=11+eβTx^1=p0(x^;β),yi=0
带入交叉熵公式同时全体训练样本的交叉熵求和化简得到,
∑ i = 1 m ( − y i β T x ^ i + l n ( 1 + e β T x ^ i ) ) \sum_{i=1}^m(-y_i\beta^T\hat x_i+ln(1+e^{\beta^T\hat x_i})) i=1m(yiβTx^i+ln(1+eβTx^i))

3.4补充

对数几率回归算法的机器学习三要素:
1.模型:线性模型,输出值得范围为[0,1],近似阶跃得单调可微函数
2.策略:极大似然估计,信息论
3.算法:梯度下降,牛顿法(近似求解方法,没有闭式解)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/744593.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

oracle 11g rac创建实例时发现只给一节点创建了实例 二节点没创建的处理方法

由于操作失误没有在二节点创建实例 删除数据库重新dbca建库 [oracleracdg1-1 dbs]$ dbca -silent -deleteDatabase -sourceDB rac11dg1 -sysDBAUserName sys -sysDBAPassword oracle_4U Connecting to database 4% complete 9% complete 14% complete 19% complete 23% …

常见网络攻击威胁分享

今天我来分享一下比较常见的网络攻击形式, ARP 欺骗攻击、CC 攻击和 DDoS 流量攻击是较为常见且危害巨大的攻击方式。 一、ARP欺骗攻击 ARP(AddressResolutionProtocol,地址解析协议)是用于将IP地址转换为MAC地址的协议。ARP欺骗…

ActiViz集成到WPF中的空域问题

文章目录 一、场景1、WPF控件2、集成ActiViz或者VTK 二、问题1、需求2、空域问题 三、解决方案1、用WindowsFormsHost包裹住ElementHost,然后将WPF的控件放在ElementHost职中:2、用Window或者Popup去悬浮3、使用第三方库Microsoft.DwayneNeed&#xff08…

springcloud-gateway 路由加载流程

问题 Spring Cloud Gateway版本是2.2.9.RELEASE,原本项目中依赖服务自动发现来自动配置路由到微服务的,但是发现将spring.cloud.gateway.discovery.locator.enabledfalse 启动之后Gateway依然会将所有微服务自动注册到路由中,百思不得其解&a…

NineData和华为云在一起!提供一站式智能数据库DevOps平台

以GuassDB数据库为底座 NineData和华为云一起 为企业提供 一站式智能数据库DevOps平台 帮助开发者 高效、安全地完成 数据库SQL审核 访问控制、敏感数据保护等 日常数据库相关开发任务 NineData 智能数据管理平台 NineData 作为新一代的云原生智能数据管理平台&#xf…

Js逆向爬虫基础篇

这里写自定义目录标题 逆向技巧断点一 、请求入口定位1. 关键字搜索2. 请求堆栈3. hook4. JSON.stringify 二、响应入口定位:1. 关键字搜索2. hook3. JSON.parse 逆向技巧 断点 普通断点 条件断点 日志断点 XHR断点 一 、请求入口定位 1. 关键字搜索 key关…

【因果推断python】57_The Difference-in-Differences 3

目录 3) Enlightenment: A Flexible Functional Form Key Concepts 3) Enlightenment: A Flexible Functional Form 有好消息也有坏消息。首先是好消息:我们已经发现问题与函数形式有关,因此我们可以通过修正函数形式来解决这个问题。也就是说&#xf…

竞赛选题 python+大数据校园卡数据分析

0 前言 🔥 优质竞赛项目系列,今天要分享的是 🚩 基于yolov5的深度学习车牌识别系统实现 🥇学长这里给一个题目综合评分(每项满分5分) 难度系数:4分工作量:4分创新点:3分 该项目较为新颖&am…

短视频最佳时长:成都柏煜文化传媒有限公司

探索时间与内容之间的完美平衡 成都柏煜文化传媒有限公司 在数字媒体日益繁荣的今天,短视频已成为人们获取信息、娱乐休闲的重要形式。然而,关于短视频的最佳时长,一直是一个备受争议的话题。本文将探讨短视频时长的各种考量因素&#xff0…

基于MATLAB对线阵天线进行道尔夫—切比雪夫加权

相控阵天线——基于MATLAB对线阵进行道尔夫—切比雪夫加权 目录 前言 一、阵列天线的综合 二、道尔夫—切比雪夫综合 三、单元间距的改变对切比雪夫阵列方向图的影响 四、单元数的改变对切比雪夫阵列激励分布的影响 五、副瓣电平SLL对切比雪夫阵列激励幅度的影响 六、副…

深入理解Java中的Collectors(Stream流)

引言 在 Java 的 Stream API 中,Collectors 是一个非常强大的工具类,它提供了许多静态方法,用于将 Stream 的元素收集到集合、字符串或其他类型的结果中。使用 Collectors,我们可以轻松地进行数据聚合和转换操作。 文章目录 引言…

小区业主管理系统

摘 要 随着城市化进程的加速和人口的不断增加,小区的数量也在不断增加。小区作为城市居民居住的主要场所,其管理工作也变得越来越重要。传统的小区业主管理方式存在诸多问题,如信息传递不畅、业务处理效率低下等。因此,开发一个高…

Spring底层原理之FactoryBean Bean工厂 单例对象 多例对象

FactoryBean 在 Spring Framework 中,FactoryBean 是一个用于创建其他 Bean 实例的特殊工厂 Bean。它允许开发者自定义 Bean 的创建逻辑,从而更加灵活地管理和配置 Bean 的实例化过程。 FactoryBean 接口 FactoryBean 接口是 Spring 框架中的一个重要…

启动VMWare虚拟机报错

1. 无法打开内核设备“\\.\VMCIDev\VMX”: 操作成功完成。是否在安装 VMware Workstation 后重新引导? 模块“DevicePowerOn”启动失败。 未能启动虚拟机。 解决办法: 解决办法: 将 Ubuntu 64 位.vmx 找到vmci0.present"TRUE"这行改成 vmci0.present "FAL…

【AI编译器】triton学习:矩阵乘优化

Matrix Multiplication 主要内容: 块级矩阵乘法 多维指针算术 重新编排程序以提升L2缓存命 自动性能调整 Motivations 矩阵乘法是当今高性能计算系统的一个关键组件,在大多数情况下被用于构建硬件。由于该操作特别复杂,因此通常由软件提…

fail2ban自动屏蔽之jumpserver

fail2ban是一款实用软件,可以监视你的系统日志,然后匹配日志的错误信息(正则式匹配)执行相应的屏蔽动作。 jumpserver是一款开源堡垒机,其拥有一定的防护登录,也可以做登录限制,但是相对于防火…

湖南(用户画像)源点调研 适用于新产品开发的市场调研方法

湖南(上市验证调研)源点咨询认为:其实市场与用户研究的方法不管都什么花哨的名头,本质上只有两种:定量与定性。而对于新产品的开发最重要的就是掌握好定性的研究方法。 问:对于新产品开发我们面对的是什么…

js如何使得四舍五入的百分比之和为100%

在JavaScript中,如果你想要确保一组四舍五入后的百分比之和严格等于100%,那么你不能直接对每个百分比进行四舍五入,因为四舍五入会引入误差。但是,你可以采用一种策略,即先对所有的百分比进行常规的四舍五入&#xff0…

SNEC天合储能秀:全球首发多元场景一站式工商业储能融合解决方案

6月13日-15日,SNEC2024光伏与智慧能源展在上海隆重举行,来自全球95个国家和地区3000家国内外展商齐聚展会,5000行业专家共话产业发展。致力于成为全球光储智慧能源解决方案的领导者,天合光能(展位号:7.2H-E…

线性和二次判别分析

线性判别分析 线性判别分析(Linear Discriminant Analysis,LDA)亦称 Fisher 判别分析。其基本思想是:将训练样本投影到低维超平面上,使得同类的样例尽可能近,不同类的样例尽可能远。在对新样本进行分类时&…