【机器学习-07】逻辑回归(Logistic Regression)的介绍和python实现

Logistic Regression 虽然被称为回归,但其实际上是分类模型,并常用于二分类。主要用来表示某件事情发生的可能性,因此因变量的范围在 0 和 1 之间。Logistic Regression 因其简单、可并行化、可解释强深受工业界喜爱。例如,探讨引发疾病的危险因素,并根据危险因素预测疾病发生的概率等。以胃癌病情分析为例,选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群必定具有不同的体征与生活方式等。因此因变量就为是否胃癌,值为“是”或“否”,自变量就可以包括很多了,如年龄、性别、饮食习惯、幽门螺杆菌感染等。自变量既可以是连续的,也可以是分类的。

Logistic 回归的本质是:假设数据服从正态分布,使用极大似然估计对模型的参数进行估计。

一、Logistic分布

Logistic分布是一种连续概率分布,常用于建模具有有限范围的随机变量。它具有S形状的概率密度函数,可以用于描述一些自然现象和统计模型中的数据分布。

Logistic分布的概率密度函数(PDF)可以表示为:

f ( x ) = e − ( x − μ ) / s s ( 1 + e − ( x − μ ) / s ) 2 f(x) = \frac{e^{-(x-\mu)/s}}{s(1+e^ {-(x-\mu)/s})^2} f(x)=s(1+e(xμ)/s)2e(xμ)/s

其中, x x x 是随机变量的取值, μ \mu μ 是分布的均值, s s s 是分布的尺度参数。均值 μ \mu μ表示分布的中心位置,尺度参数 ss 控制分布的形状。

Logistic分布的累积分布函数(CDF)可以表示为:

F ( x ) = 1 1 + e − ( x − μ ) / s F(x) = \frac{1}{1+e^{-(x-\mu)/s}} F(x)=1+e(xμ)/s1

Logistic分布的特点包括:

对称性:Logistic分布是关于均值 μ \mu μ对称的,即分布在均值两侧呈镜像关系。
S形状:Logistic分布的概率密度函数在均值附近增长迅速,然后逐渐趋于平缓。这使得它在建模概率事件的发生概率时非常有用。
尾部厚重:相比于正态分布,Logistic分布的尾部较厚,即在分布的尾部区域概率下降较慢。
在这里插入图片描述

二、逻辑回归介绍

对于二分类问题,假设我们有一个数据集,其中包含 m m m个样本。每个样本由输入特征向量 x x x和对应的实际类别 y y y组成。我们希望通过逻辑回归模型来预测样本的类别。

假设存在一条直线(或超平面),可以将数据集中的样本完全分开。我们可以用一个线性模型来表示这条直线,其形式如下:

z = θ 0 + θ 1 x 1 + θ 2 x 2 + … + θ n x n z = \theta_0 + \theta_1x_1 + \theta_2x_2 + \ldots + \theta_nx_n z=θ0+θ1x1+θ2x2++θnxn

其中, z z z表示线性模型的输出, θ 0 , θ 1 , … , θ n θ \theta_0, \theta_1, \ldots, \theta_nθ θ0,θ1,,θnθ 表示模型的参数, x 1 , x 2 , … , x n x_1, x_2, \ldots, x_n x1,x2,,xn表示输入特征。

为了将线性模型的输出转化为概率值,我们使用逻辑函数(sigmoid函数)进行转换,得到预测的概率。逻辑函数的形式如下:

h θ ( x ) = 1 1 + e − z h_{\theta}(x) = \frac{1}{1+e^{-z}} hθ(x)=1+ez1

其中, h θ ( x ) h_{\theta}(x) hθ(x)表示逻辑回归模型的预测结果。

为了使得逻辑回归模型能够对样本进行分类,我们需要将预测的概率值映射到类别标签。一般来说,当预测的概率大于等于一个阈值时,我们将样本预测为正类别(例如, h θ ( x ) ≥ 0.5 h_{\theta}(x) \geq 0.5 hθ(x)0.5);当预测的概率小于阈值时,我们将样本预测为负类别。

三 、逻辑回归的代价函数(Cost Function)

逻辑回归的代价函数(Cost Function)用于衡量模型预测结果与实际观测值之间的差异。在逻辑回归中,常用的代价函数是交叉熵损失函数(Cross-Entropy Loss)。

假设我们有一个训练集,其中包含mm个样本,每个样本由输入特征向量xx和对应的实际类别yy组成。逻辑回归的目标是通过最小化代价函数来优化模型的参数。

对于二元分类问题,交叉熵损失函数可以表示为:

J ( θ ) = − 1 m ∑ i = 1 m [ y ( i ) log ⁡ ( h θ ( x ( i ) ) ) + ( 1 − y ( i ) ) log ⁡ ( 1 − h θ ( x ( i ) ) ) ] J(\theta) = -\frac{1}{m}\sum_{i=1}^{m}\left[y^{(i)}\log(h_{\theta}(x^{(i)})) + (1-y^{(i)})\log(1-h_{\theta}(x^{(i)}))\right] J(θ)=m1i=1m[y(i)log(hθ(x(i)))+(1y(i))log(1hθ(x(i)))]

其中, J ( θ ) J(\theta) J(θ)表示代价函数, θ \theta θ表示模型的参数, h θ ( x ) h_{\theta}(x) hθ(x)表示逻辑回归模型的预测结果(即sigmoid函数的输出), y ( i ) y^{(i)} y(i)表示第 i i i个样本的实际类别。

代价函数的含义可以解释为:对于每个样本,如果实际类别为1,则第一项 y ( i ) log ⁡ ( h θ ( x ( i ) ) ) y^{(i)}\log(h_{\theta}(x^{(i)})) y(i)log(hθ(x(i)))越大越好;如果实际类别为0,则第二项 ( 1 − y ( i ) ) log ⁡ ( 1 − h θ ( x ( i ) ) ) (1-y^{(i)})\log(1-h_{\theta}(x^{(i)})) (1y(i))log(1hθ(x(i)))越大越好。通过求和和取平均,我们可以得到整个训练集上的平均代价。

逻辑回归的目标是最小化代价函数,通过调整模型的参数 θ \theta θ来实现。常用的方法是梯度下降(Gradient Descent),通过计算代价函数对参数的偏导数,更新参数以减小代价函数的值。

具体的梯度下降更新规则可以表示为:

θ j : = θ j − α ∂ J ( θ ) ∂ θ j \theta_j := \theta_j - \alpha\frac{\partial J(\theta)}{\partial \theta_j} θj:=θjαθjJ(θ)

其中, α \alpha α表示学习率,控制参数更新的步长。

通过反复迭代更新参数,直到达到收敛条件(如达到最大迭代次数或代价函数变化不显著),逻辑回归模型就可以得到最优的参数估计。

四、逻辑回归基于sklearn库的python代码实现

当使用scikit-learn库中的逻辑回归模型进行分类任务时,可以按照以下步骤进行操作:

  • 1 导入所需的库和模块:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
  • 2 加载鸢尾花数据集:
iris = load_iris()
X = iris.data
y = iris.target
  • 3 划分数据集为训练集和测试集:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
  • 4 创建并训练逻辑回归模型:
model = LogisticRegression()
model.fit(X_train, y_train)
  • 5 使用训练好的模型进行预测:
y_pred = model.predict(X_test)
  • 6 评估模型性能:
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)

完整的Python代码如下所示:

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# 加载鸢尾花数据集
iris = load_iris()
X = iris.data
y = iris.target

# 划分数据集为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建并训练逻辑回归模型
model = LogisticRegression()
model.fit(X_train, y_train)

# 使用训练好的模型进行预测
y_pred = model.predict(X_test)

# 评估模型性能
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)

这段代码中,首先使用load_iris()函数加载鸢尾花数据集,然后使用train_test_split()函数将数据集划分为训练集和测试集。接下来,创建一个LogisticRegression对象作为逻辑回归模型,并使用训练集数据进行训练。然后,使用训练好的模型对测试集进行预测,并使用accuracy_score()函数计算分类准确度作为模型性能的评估指标。

五、逻辑回归的优缺点

  • 优点:
  • 实现简单,广泛的应用于工业问题上;
  • 分类时计算量非常小,速度很快,存储资源低;
  • 便利的观测样本概率分数;
  • 对逻辑回归而言,多重共线性并不是问题,它可以结合L2正则化来解决该问题;
  • 计算代价不高,易于理解和实现;
  • 缺点:

-当特征空间很大时,逻辑回归的性能不是很好;
-容易欠拟合,一般准确度不太高
-不能很好地处理大量多类特征或变量;
-只能处理两分类问题(在此基础上衍生出来的softmax可以用于多分类),且必须线性可分;
-对于非线性特征,需要进行转换;

六、总结:

逻辑回归是一种常用的分类算法,适用于二分类问题。它基于线性模型和逻辑函数的组合,将线性模型的输出转化为概率值,并通过设定阈值进行分类预测。逻辑回归模型的训练过程是通过最小化代价函数来优化模型参数,常用的代价函数是交叉熵损失函数。

使用scikit-learn库中的逻辑回归模型进行分类任务的步骤如下:

  • 导入所需的库和模块。
  • 加载数据集。
  • 划分数据集为训练集和测试集。
  • 创建并训练逻辑回归模型。
  • 使用训练好的模型进行预测。
  • 评估模型性能,常用的指标是准确度。

逻辑回归模型具有简单高效、可解释性强和能处理非线性关系等优点。它在许多领域都有广泛的应用,如医学、金融、市场营销等。然而,逻辑回归也存在一些缺点,例如对异常值敏感、处理多分类问题相对困难等。

综上所述,逻辑回归是一种强大的分类算法,通过线性模型和逻辑函数的组合,能够有效地解决二分类问题。在实践中,我们可以使用scikit-learn库中的逻辑回归模型来快速构建和训练模型,并对其性能进行评估。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/475949.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

进程优先级

文章目录 一、进程优先级二、查看进程优先级以及修改优先级 一、进程优先级 cpu资源少量,只有一个然而在操作系统中存在很多进程,这些进程访问cpu资源时他们相互之间是存在竞争关系。cpu为了保他们之间的公平,也就存在了优先级!那…

使用Go语言创建HTTP服务器并展示网页

使用Go语言创建一个简单的服务器时可以先建立一个项目根目录,随后在根目录中建立一个用于存放静态文件(HTML/CSS/JavaScript)的文件夹 GGboy,接下来输入命令初始化Go模块 go mod init GGboy // 项目名称是 GGboy 在出现 go.mod 文…

32-Java拦截过滤器模式 ( Intercepting Filter )

Java拦截过滤器模式 实现范例 拦截过滤器模式(Intercepting Filter Pattern)用于对应用程序的请求或响应做一些预处理/后处理定义过滤器,并在把请求传给实际目标应用程序之前应用在请求上过滤器可以做认证/授权/记录日志,或者跟踪…

Codeforces Round 496 (Div. 3)

目录 A. Tanya and Stairways B. Delete from the Left C. Summarize to the Power of Two D. Polycarp and Div 3 E. Median on Segments F. Berland and the Shortest Paths A. Tanya and Stairways 简单性质题 我们找到性质,如果这个数大于等于后面的数就…

网工内推 | 云计算工程师,HCIE认证优先,最高18k*14薪

01 杭州中港科技有限公司 招聘岗位:云计算工程师 职责描述: 1、承担云计算相关工程交付、业务上云及售前测试,从事虚拟化、桌面云、存储、服务器、数据中心、大数据、相关产品的工程项目交付或协助项目交付。 2、承担云计算维护工程师职责&…

mac安装rust开发环境,使用brew安装和全局配置

mac下使用brew可以一键安装环境: brew install rustup 安装完成执行: rustup-init 按照提示配置即可: 出现: 想要全局生效: echo export PATH"$HOME/.cargo/bin:$PATH" >> ~/.bash_profile source…

代码随想录算法训练营第day53|1143.最长公共子序列 、 1035.不相交的线、 53. 最大子序和 动态规划

目录 1143.最长公共子序列 1035.不相交的线 53. 最大子序和 1143.最长公共子序列 力扣题目链接(opens new window) 给定两个字符串 text1 和 text2,返回这两个字符串的最长公共子序列的长度。 一个字符串的 子序列 是指这样一个新的字符串:它是由原…

Windows 设置多显示器显示

Windows 设置多显示器显示 1. Windows 7 设置 HDMI 输出2. Windows 11 设置多显示器显示References 1. Windows 7 设置 HDMI 输出 2. Windows 11 设置多显示器显示 ​​​ References [1] Yongqiang Cheng, https://yongqiang.blog.csdn.net/

深度学习_20_卷积中的填充与步幅

如果图片本身比较小,卷积之后输出也会很小,那么可以在图片与卷积核相乘之前先填充一下,让输出为预期大小 一般填充后输入,输出相同 当图片比较大的时候,如果利用卷积核去得到我们想要的大小的话,得用到多层…

javaSwing日记管理系统

一、简介 使用 Java Swing 开发日记管理系统 在今天的博客中,我将向您介绍如何使用 Java Swing 开发一个简单而功能强大的日记管理系统。这个系统将具有登录、注册、找回密码、写日志以及切换主题等功能。我们将使用 MySQL 数据库来存储用户信息和日记内容。 二、…

ShardingSphere+JPA+Druid实现分表操作

要在SpringBoot项目中实现分表操作,本文使用的是ShardingSphereJPADruid实现。过程中出现问题记录一下。 准备MySQL数据库表 这里准备的是一张主表test_cost,两张从表test_cost_0和test_cost_1,结构需要相同,主表只是声明了表结构…

python异常:pythonIOError异常python打开文件异常

1.python读取不存在的文件时,抛出异常 通过 open()方法以读“r”的方式打开一个 abc.txt 的文件(该文件不存在),执行 open()打开一个不存在的文件时会抛 IOError 异常,通过 Python 所提供的 try...except...语句来接收…

基于springBoot 整合JavaMail的网站邮件通知功能实现

JDK版本:jdk17 IDEA版本:IntelliJ IDEA 2022.1.3 SpringBoot 版本:v2.5.7 文章目录 一、关于邮件发送的基本概念1.1 邮件发送1.1.1 SMTP协议 1.2 邮件接收1.2.1 POP3协议1.2.2 IMAP协议 二、准备工作2.1 注册邮箱2.1 获取登录授权码 三、开发…

走进jvm之垃圾回收器篇

这里我想首先说明一下,虽然我们经常会拿垃圾回收器来做比较,虽然想挑选一个最好的收集器出来,但是目前也没有说哪一款收集器是完美的,更不存在万能的收集器,我们也只是对收集器选择最适合场景的一个收集器。 那么作者将…

Springboot+Vue前后端分离的在线图书商城(书城)系统

项目介绍 现代经济快节奏发展以及不断完善升级的信息化技术,让传统数据信息的管理升级为软件存储,归纳,集中处理数据信息的管理方式。本图书商城管理系统就是在这样的大环境下诞生,其可以帮助管理者在短时间内处理完毕庞大的数据…

UE snap02 解析ASCII文本文件

UE snap02 解析ASCII文本文件 示例数据data.dat 11389477.2714892 3364559.73645693 0 11389471.5162524 3364567.8860295 0 11389471.5162524 3365813.09618369 0 11388329.6082659 3366184.85895869 0 11388320.4775297 3366197.78833087 0 11388270.6882384 3366214.84811…

OpenAI Sora文生视频模型技术报告中英全文

Video generation models as world simulators 视频生成模型作为世界模拟器 We explore large-scale training of generative models on video data. Specifically, we train text-conditional diffusion models jointly on videos and images of variable durations, resolu…

jQuery 元素操作

文章目录 1. jQuery 样式操作1.1 操作 css 方法1.2 设置类样式方法*案例--tab栏切换 1.3 类操作和className 区别 2. jQuery 效果2.1 显示隐藏效果2.2 滑动效果事件切换动画队列及其停止排队方法 3.3 淡入淡出效果利用渐进方式调整透明度*案例--高亮突出显示 3.4 自定义动画 an…

国务院办公厅发布:政府类网站网页设计规范(试行)

国务院办公厅于2019年12月发布了《政府类网站网页设计规范(试行)》。该规范的发布旨在统一政府类网站的设计风格和标准,提升政府网站的用户体验和可访问性,推动政府信息公开和服务的提升。 该规范涵盖了政府类网站的各个方面&…

Java IO流(超详细!)上篇

目录 一、File类1、操作文件和目录 二、I/O流概述1、按流向划分:输入流和输出流2、按处理单元划分:字节流和字符流3、按流的角色划分:节点流和处理流 三、字节流1、字节输出流基类:OutputStream2、字节输出流FileOutputStream类3、…