《机器学习》—— 使用过采样方法实现逻辑回归分类问题

文章目录

  • 一、什么是过采样方法?
  • 二、使用过采样方法实现逻辑回归分类问题
  • 三、过采样的优缺点

本篇内容是 基于Python的scikit-learn库中sklearn.linear_model 类中的 LogisticRegression()逻辑回归方法实现的,其内容中只是在处理训练集的方法上与以下链接内容里的不同,在其他的方面都是一样的,可以放在一起看。

  • 《机器学习》—— 通过下采样方法实现逻辑回归分类问题:
    https://blog.csdn.net/weixin_73504499/article/details/141367509

一、什么是过采样方法?

  • 过采样(Over-sampling)是数据预处理中的一种技术,主要用于处理不平衡数据集(imbalanced datasets)问题。在不平衡数据集中,某些类别的样本数量远多于其他类别,这可能导致机器学习模型在训练时偏向于多数类,从而忽略了少数类,进而在预测时表现出对少数类的低准确率。
  • 过采样的基本思想是通过增加少数类(即样本数量较少的类别)的样本来改善数据集的平衡性
  • 本篇我们使用过采样方法中的合成少数类过采样技术(SMOTE, Synthetic Minority Over-sampling Technique)对数据集进行过采样操作
    • 合成少数类过采样技术(SMOTE, Synthetic Minority Over-sampling Technique)是一种复杂的过采样方法,它通过生成新的少数类样本来增加其数量。SMOTE算法首先选择少数类中的一个样本,然后在其最近的k个邻居(这些邻居也属于少数类)中随机选择一个样本,并在两个样本之间的连线上随机生成一个新的样本。这个过程可以重复多次,以生成足够数量的新样本。

二、使用过采样方法实现逻辑回归分类问题

  • 具体步骤:

    • 1、读取并查看数据
    • 2、数据标准化
    • 3、切分原始数据
    • 4、过采样解决样本不均衡问题
    • 5、训练模型并建立最优模型
    • 6、传入测试数据集进行测试
  • 1、读取并查看数据

    • 这里有一份含有28万+数据的csv文件

    • 通过pandas方法读取此文件

      # 通过pandas方法读取creditcard.csv文件,并用data变量接收
      data = pd.read_csv("creditcard.csv")
      data.head()  # 查看data的前几行,默认是5行
      
    • 如下图所示:
      在这里插入图片描述

    • 这个数据的最后一列“Class”标签用来标注是否正常,0表示正常,1表示异常

    • 我们可以通过画出条形图来观察两类标签的样本个数

      import matplotlib.pyplot as plt
      """绘制条形图,查看正负样本个数"""
      labels_count = pd.Series.value_counts(data['Class'])
      plt.title("正负例样本数")
      plt.xlabel("类别")
      plt.ylabel("帧数")
      labels_count.plot(kind='bar')
      plt.show()
      
    • 结果如下:
      在这里插入图片描述

    • 可以看出0和1标签的样本数据个数相差的非常多,0标签有28万+,而1标签只有几百多,这便是不平衡数据集

  • 2、数据标准化

    • 我们数据的倒数第二(Amount)列可以看出,这一列的特征数值,比其他列特征数值要大很多,如果不做调整就传入模型训练,将会占有很大的权重,导致最后的结果很大的程度上都只受这一个特征的影响
    • 通过观察,可以发现,前面的特征数据都是在-1~1之间,所以我们可以用Z标准化的方法,改变其数值范围
      from sklearn.preprocessing import StandardScaler
      """数据标准化:Z标准化"""
      scaler = StandardScaler()
      # a = data[['Amount']]  # 返回dataframe数据,而不是series
      # 用StandardScaler中的fit_transform实现Z标准化
      data['Amount'] = scaler.fit_transform(data[['Amount']])
      # 删除无用列(第一列没有作用)
      data = data.drop(['Time'], axis=1)  
      
    • 结果如下:
      在这里插入图片描述
  • 3、切分原数据

    • 对原始数据进行切分,切出20%作为测试集,其余的为训练集
      # 切分数据集
      x_whole = data.drop('Class', axis=1) # # 去除标签列作为训练数据
      y_whole = data.Class  # 得到标签列
      # 划分出20%的测试集,并抛出随机种子,为了后面每次的运行,随机划分的都是相同的数据
      x_train_w, x_test_w, y_train_w, y_test_w = train_test_split(x_whole, y_whole, test_size=0.2, random_state=0)
      
  • 4、过采样解决样本不均衡问题

    • 使用SMOTE算法通过生成新的少数类样本来增加其数量

      # 进行过采样操作
      from imblearn.over_sampling import SMOTE
      
      oversampler = SMOTE(random_state=0)  # 随机种子
      os_x_train, os_y_train, = oversampler.fit_resample(x_train_w, y_train_w)  # 人工拟合数据
      # os_x_train:传入模型训练的训练数据
      # os_y_train:传入模型训练的标签数据
      
    • 可以再次通过绘制条形图观察数据

      """绘制图形,查看正负样本个数"""
      # 通过标签数据来查看
      labels_count = pd.Series.value_counts(os_y_train)
      plt.title("正负例样本数")
      plt.xlabel("类别")
      plt.ylabel("帧数")
      labels_count.plot(kind='bar')
      plt.show()
      
    • 结果如下:
      在这里插入图片描述

    • 可以看出通过SMOT算法,让1标签的数据量增加到与0标签相同的数量

  • 5、训练模型并建立最优模型

    • 交叉验证选择较优惩罚因子

    • 建立最优模型

      # 交叉验证选择较优惩罚因子
      scores = []
      c_param_range = [0.01, 0.1, 1, 10, 100]  # 参数
      for i in c_param_range:  # 第1次循环的时候C=0.01,5个逻辑回归模型
          lr = LogisticRegression(C=i, penalty='l2', solver='lbfgs', max_iter=1000)
          score = cross_val_score(lr, x_train_w, y_train_w, cv=10, scoring='recall')  # 交叉验证
          score_mean = sum(score) / len(score)  # 交叉验证后的值 召回率
          scores.append(score_mean)  # 存放所有的交叉验证召回率
          print(score_mean)  # 将不同的C参数分别传入模型, 分别看看哪个模型效果更好
      
      best_c = c_param_range[np.argmax(scores)]  # 找到scores中最大的值对应的C参数
      print("........最优惩罚因子为:{}........".format(best_c))
      
      """建立最优模型"""
      lr = LogisticRegression(C=best_c, penalty='l2', max_iter=1000)
      lr.fit(os_x_train, os_y_train)
      
    • 运行结果为:
      在这里插入图片描述

  • 6、传入测试数据集进行测试

    • predict 方法接受一个数组(或类似数组的结构,如列表的列表、Pandas DataFrame等),其中包含了要预测的目标变量的新数据点。然后,它使用训练好的模型对这些数据点进行预测,并返回一个包含预测结果的数组。

    • metrics.classification_report 是 scikit-learn(一个流行的 Python 机器学习库)中的一个函数,用于展示主要分类指标的文本报告。这个函数特别适用于评估分类模型的性能,尤其是在处理多类分类问题时。它提供了每个类别的精确度(precision)、召回率(recall)、F1 分数(F1-score)和支持度(support,即每个类别的真实样本数量)的详细报告。

      from sklearn import metrics
      
      # 传入原数据切分后的训练数据进行测试
      train_predicted_w = lr.predict(x_train_w)
      print(metrics.classification_report(y_train_w,train_predicted_w))
      
      # 传入原数据切分后的测试数据进行测试
      test_predicted_w = lr.predict(x_test_w)
      print(metrics.classification_report(y_test_w, test_predicted_w))
      
    • 结果如下:
      在这里插入图片描述

    • 下面是未使用过采样方法,使用原数据进行模型训练后的结果
      在这里插入图片描述

    • 对比两次不同数据训练出的结果可以看出,通过过采样的方法处理数据后可以大大提高模型的性能

三、过采样的优缺点

  • 优点:

    • 平衡数据集:过采样通过增加少数类样本的数量,有助于平衡训练数据集中各个类别之间的比例,从而提高机器学习模型对少数类别的分类性能。
    • 不引入偏见:在合成新的少数类样本时,过采样方法(如SMOTE算法)并不依赖于多数类样本,因此不会引入对多数类的任何偏见。
  • 缺点:

    • 过拟合风险:过度依赖过采样可能导致模型对训练数据过拟合,从而在未知数据上表现不佳。这是因为模型可能过于关注少数类的特征,而忽略了数据的整体分布。
    • 增加计算成本:过采样方法需要合成新的样本,这会增加数据集的规模,进而增加训练和预测的计算成本。
    • 引入噪声:在合成新的少数类样本时,过采样方法可能引入一定程度的噪声,这可能对模型的性能产生不利影响。
    • 类别平衡失衡:过采样可能会导致数据集类别的平衡性失衡,特别是当过采样比例过高时,会使得多数类样本的比例相对较低,从而可能导致模型对多数类样本的分类性能下降。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/871550.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

创建、使用、删除 数据库

一、创建数据库 1.1 使用DDL语句创建数据库 CREATE DATABASE 数据库名 CHARACTER SET 字符编码 COLLATE 排序规则; 如果不指定数据库编码,默认是utf8; 如果不指定排序规则,默认是utf8_general_ci,即不区分大小写,区分…

我“开发“了一款大模型应用,AI门槛这么低了吗?

现在国产大模型多如牛毛。虽然可选的大模型产品很多,但普遍存在同质化、高分低能、实用性差、专业性不足的问题,哪怕是诸如ChatGPT、Gemini这样全球顶尖的大模型也会存在这种情况。 还有一点比较重要的是,由于大模型需要算力、算法、数据的基…

vue+ckEditor5 复制粘贴wold文字+图片并保存格式

第一步在vue2项目下安装 npm install --save ckeditor/ckeditor5-build-decoupled-document 第二 项目下新建一个plugins的文件夹将这个包ckeditor5-build-classic放入 (包在页面最上方 有个下载按钮 可以下载) 刚开始时 ckeditor5-build-classic文件…

「字符串」前缀函数|KMP匹配:规范化next数组 / LeetCode 28(C++)

目录 概述 思路 核心概念:前缀函数 1.前缀函数 2.next数组 1.考研版本 2.竞赛版本 算法过程 构建next数组 匹配过程 复杂度 Code 概述 为什么大家总觉得KMP难?难的根本就不是这个算法本身。 在互联网上你可以见到八十种KMP算法的next数组…

SQL 布尔盲注 (injection 第六关)

简介 SQL注入(SQL Injection)是一种常见的网络攻击方式,通过向SQL查询中插入恶意的SQL代码,攻击者可以操控数据库,SQL注入是一种代码注入攻击,其中攻击者将恶意的SQL代码插入到应用程序的输入字段中&am…

26.删除有序数组中的重复项---力扣

题目链接: . - 力扣(LeetCode). - 备战技术面试?力扣提供海量技术面试资源,帮助你高效提升编程技能,轻松拿下世界 IT 名企 Dream Offer。https://leetcode.cn/problems/remove-duplicates-from-sorted-array/descript…

嵌入式学习——(Linux高级编程——线程)

线程 一、pthread 线程概述 pthread(POSIX threads)是一种用于在程序中实现多线程的编程接口。它与进程一样,可以用于实现并发执行任务,但与进程相比有一些不同的特点。 二、优点 1. 比多进程节省资源:进程在创建时…

PDPS软件 那智机器人 (丰田版)离线程序导出处理

在PDPS仿真软件中导出的那智机器人离线程序,一般是无法直接给TFD控制装置-那智机器人(丰田式样版)导入及识别使用。因此要对导出的程序进行转换编译处理,才能给TFD那智机器人(丰田式样版)导入离线程序。以下…

HarmonyOS 开发

环境 下载IDE 代码 import { hilog } from kit.PerformanceAnalysisKit; import testNapi from libentry.so; import { router } from kit.ArkUI; import { common, Want } from kit.AbilityKit;Entry Component struct Index {State message: string Hello HarmonyOS!;p…

类与对象(中(2))

开头 大家好啊,上一期内容我们介绍了类与对象中六大默认成员函数中的两种--->构造函数与析构函数,相信大家多少都形成了自己的独到见解。那么今天,我将继续就拷贝构造函数与运算符重载函数来展开讲解,话不多说,我们…

Python版《超级玛丽+源码》-Python制作超级玛丽游戏

小时候最喜欢玩的小游戏就是超级玛丽了,有刺激有又技巧,通关真的很难,救下小公主还被抓走了,唉,心累,最后还是硬着头皮继续闯,终于要通关了,之后再玩还是没有那么容易,哈…

十五年以来 — 战略性云平台服务的演进路径之全面呈现(含亚马逊、微软和谷歌)

Gartner每年都发布对全球IaaS平台进行评估的魔力象限报告。2023年底,Gartner将此项评估的名称改为“战略性云平台服务”(Strategic cloud platform services),尽管其核心仍为IaaS,但是,毫无疑问&#xff0c…

手机云电脑游戏测评:ToDesk、易腾云、达龙云、青椒云四款对比分析

文章目录 📑 引言一、背景概述测试目标 二、测试方案与评测标准2.1 测试设备2.2 评测标准 三、云电脑移动端实测3.1 ToDesk云电脑3.1.1 安装步骤与用户界面3.1.2 性能测试3.1.3 多场景适用性与兼容性3.1.4 性价比 3.2 易腾云电脑3.2.1 安装流程与用户界面3.2.2 帧率…

WebRTC为何成为视频开发领域的首选技术? EasyCVR视频转码助力无缝视频通信

随着互联网的飞速发展,视频通信已成为日常生活和工作中不可或缺的一部分。从在线教育、视频会议到远程医疗、在线直播,视频开发的需求日益增长。在这些应用场景中,选择何种技术来构建视频系统至关重要。 目前,在很多视频业务的开…

Golang | Leetcode Golang题解之第352题将数据流变为多个不相交区间

题目&#xff1a; 题解&#xff1a; type SummaryRanges struct {*redblacktree.Tree }func Constructor() SummaryRanges {return SummaryRanges{redblacktree.NewWithIntComparator()} }func (ranges *SummaryRanges) AddNum(val int) {// 找到 l0 最大的且满足 l0 < val…

Browserless 网页抓取:Playwright 中的 NodeJS

什么是 Playwright&#xff1f; Playwright 是一个用于 Web 测试和自动化的开源框架。基于 Node.js&#xff0c;由 Microsoft 开发&#xff0c;它通过单一 API 支持 Chromium、Firefox 和 WebKit。它可以在 Windows、Linux 和 macOS 上运行&#xff0c;并且兼容 TypeScript、J…

设计模式六大原则(一)--单一职责原则

摘要 单一职责原则是设计模式六大原则之一&#xff0c;强调一个类应该仅有一个引起它变化的原因&#xff0c;即每个类应仅负责一项职责。本文通过详细探讨单一职责原则的定义、实现方式、优缺点及其适用场景&#xff0c;揭示了其在软件设计中的核心地位。通过类的拆分、接口设…

TCP协议段中的六个标志位

目录 ACK SYN RST FIN PSH URG TCP报文格式中的六个标志位由6个比特构成&#xff0c;在通信双方基于TCP协议互相发送报文数据时可以通过报头中标志位来区别对方发送的报文数据的请示。 ACK 确认号是否有效。 接收端对所收到的报文进行检查&#xff0c;若未发现错误&…

周易测算系统开发:融合古典智慧与现代技术的创新实践

一、引言 周易&#xff0c;作为中国古代文化的瑰宝&#xff0c;蕴含着深邃的哲学思想与预测智慧&#xff0c;其独特的六十四卦体系及爻变原理&#xff0c;自古以来便被人们用于探索自然规律、人生哲理及未来趋势。随着科技的飞速发展&#xff0c;将周易智慧与现代计算机技术相结…