【Python机器学习】无监督学习——不同类型的预处理

之前学习过,一些算法(比如神经网络和SVM)对数据缩放非常敏感。因此,通常的做法是对特征进行调节,使数据更适合于这些算法。通常来说,这是对数据的一种简单的按照特征的缩放和移动。举例:

import mglearn.plots
import matplotlib.pyplot as plt


mglearn.plots.plot_scaling()
plt.show()

如上图,左侧显示的是一个模拟的有两个特征的二分类数据集。第一个特征位于10-15之间,第二个特征大约位于0-9之间。

右侧的4张图展示了4种数据变换方法,都生成了更加标准的范围。

1、scikit-learn中的StandardScaler确保每个特征的平均值为0,方差为1,使所有特征都位于同一量级,但这种缩放不能保证特征任何特定的最大值与最小值。

2、RobustScaler的工作原理与StandardScaler类似,确保每个特征的统计属性都位于同一范围,但RobustScaler使用的是中位数和四分位数,而不是平均值和方差。这样RobustScaler会忽略与其他点有很大不同的数据点(比如测量误差)。这些与众不同的数据点也叫异常值。可能会给其他缩放方法造成麻烦;

3、MinMaxScaler移动数据,使所有特征都刚好位于0-1之间,对于二维数据集来说,所有的数据都包含在x轴0-1与Y轴0-1组成的矩阵之间;

4、Normalizer用到一种完全不同的缩放方法。它对每个数据点进行缩放,使得特征向量的欧式长度等于1,换句话说,它将一个数据点投射在半径为1 的圆上,这意味着每个数据点的缩放比例都不相同。如果只有数据的方向(或角度)是重要的,而特征向量的长度无关紧要,通常会使用这种归一化。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/678494.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

MPLAB--读写MCU数据

空工程 Read –Programmer\Read –File\Export, –确定后选择文件位置 & 文件名 Program –File\Import…,选择烧录的文件*.hex –Programmer\Program

在Vue3中使用WebHQChart实现K线图的沙盘推演

本文由ScriptEcho平台提供技术支持 项目地址:传送门 Vue.js K线沙盘推演代码 应用场景介绍 本代码演示了一个使用 Vue.js 框架开发的 K 线沙盘推演工具,它允许用户加载历史 K 线数据并对其进行编辑和修改,从而模拟和分析不同的市场走势。…

[原型资源分享]经典产品饿了么UI模版部件库

​部件库预览链接:https://f13gm0.axshare.com 支持版本: Axrure RP 8 文件大小: 3MB 文档内容介绍 基本部件:表单样式:12款、数据样式:10款、服务样式:6款、导航:5款、业务组件:7款、 模板…

关于无法通过脚本启动Kafka集群的解决办法

启动Kafka集群时,需要在每台个节点上启动启动服务,比较麻烦,通过写了以下脚本来进行启停;发现能正常使用停止功能,不能正常启动Kafka; Kafka启停脚本: ## 以防不能通过shell脚本启动Kafka服务…

SSM李宁线上商城系统小程序-计算机毕业设计源码48327

目 录 摘要 1 绪论 1.1课题研究背景 1.2研究现状 1.3系统开发技术的特色 1.4 ssm框架介绍 1.5论文结构与章节安排 2 李宁线上商城系统小程序系统分析 2.1 可行性分析 2.2 系统流程分析 2.2.1数据流程 2.2.2业务流程 2.3 系统功能分析 2.3.1 功能性分析 2.3.2 非…

CTFHUB-技能树-web-信息泄露

1.目录遍历 这个没什么好讲的,进去直接点击找flag,然后在下面目录翻,就找到了 ctfhub{ad8099fcb6e04071264ccb5c} 2.PHPINFO 访问 点击查看 3.备份文件下载 3.1 网站源码 访问 使用御剑扫描 然后下载查看 点击文本查看其他两个文件,也没发现…

从C到C++,C++入门篇(1)

1.什么是C C是一种通用编程语言,由Bjarne Stroustrup在1980年代初开发,作为C语言的扩展。 C支持多种编程范式,包括过程式编程、数据抽象、面向对象编程和泛型编程等。 这种语言在操作系统、游戏开发、图形界面、嵌入式系统、分布式系统、网…

RIP v2路由安全认证综合实验

RIP v2路由安全认证综合实验 实验拓扑: 实验要求:通过认证防范攻击者获得通信设备的相关信息。 实验步骤: 1.完成基本配置 sys Enter system view, return user view with CtrlZ. [Huawei]sys AR1 [AR1]undo in e Info: Information center…

【时间复杂度】定义与计算方法

文章目录 1.什么是时间复杂度?2.时间复杂度类别2.1 常量阶 O(1)2.2 对数阶 O(log n)2.3 线性阶 O(n)2.4 线性对数阶 O(n log n)2.5 平方阶 O(n^2^) 1.什么是时间复杂度? 时间复杂度是计算机科学中用来描述算法执行时间效率的一个概念。它表示了算法执行时…

借助调试工具理解BLE协议_3.Windows BLE调试工具

1.调试工具下载 Windows BLE调试工具是一款运行在Windows下的BLE调试软件,实现了扫描、连接、获取BLE设备上的服务以及向服务写入和读取数据的功能。图1是Windows BLE调试工具主界面。资源地址: https://download.csdn.net/download/mecompu/86508009?…

CogVLM2多模态开源大模型部署与使用

CogVLM2多模态开源大模型部署与使用 项目简介 CogVLM2 是由清华大学团队发布的新一代开源模型系列。2024年5月24日,发布了Int4版本模型,只需16GB显存即可进行推理。2024年5月20日,发布了基于llama3-8b的CogVLM2,性能与GPT-4V相当…

AI时代下的智能商品计划管理

在时尚产业迅猛发展的今天,商品计划已成为品牌运营不可或缺的一环。优秀的服装品牌通过精心策划的商品计划,不仅致力于为消费者提供独特且符合其需求的产品,同时也在不断探索如何更有效地整合企业资源,确保从设计、研发、采购到生…

可视化数据科学平台在信贷领域应用系列二:数据清洗

上一篇文章中,某互联网银行零售信贷风险建模专家使用数据科学平台Altair RapidMiner——完成了数据探索工作,《可视化数据科学平台在信贷领域应用系列一:数据探索》。本次这位建模专家再次和大家分享数据准备的第二步骤,数据清洗。…

揭秘HubSpot集客营销:如何吸引并转化全球潜在客户

随着全球数字化浪潮的推进,企业出海已经成为许多公司扩大市场、增加品牌曝光度的重要战略。HubSpot集客营销作为一种以客户为中心、数据驱动的营销策略,为企业在海外市场的成功提供了强有力的支持。作为HubSpot亚太地区的合作伙伴,NetFarmer将…

小熊家务帮day5-day7 客户管理模块1 (小程序认证,手机验证码认证,账号密码认证,修改密码,找回密码等)

客户管理模块 1.认证模块1.1 认证方式介绍1.1.1 小程序认证1.1.2 手机验证码登录1.1.3 账号密码认证 1.2 小程序认证1.2.1 小程序申请1.2.2 创建客户后端工程jzo2o-customer1.2.3 开发部署前端1.2.4 小程序认证流程1.2.4.1 customer小程序认证接口设计Controller层Service层调用…

TCP三次握手、四次分手

TCP三次握手、四次挥手 TCP(Transmission Control Protocol)是一种面向连接的、可靠的、基于字节流的传输层通信协议,用于在网络上建立可靠的数据传输通道。在TCP/IP协议族中,TCP负责在数据传输过程中提供可靠性和完整性保证。TCP…

python协程入门实战详解

本章将以通俗易懂、贴合实际的方式介绍以下内容: 协程是什么,有什么特点,协程的优势是什么如何理解事件和事件循环协程的创建方式,如何控制协程的并发量在协程中使用aiohttp发送HTTP请求aiohttp案例协程中的异常处理,…

flowable工作流 完成任务代码 及扩展节点审核人(实现多级部门主管 审核等)详解【JAVA+springboot】

低代码项目 使用flowable 工作流 完成任务代码 详解 可以看到 complete()方法 传递了流程变量参数var 前端传递此参数就可以实现 流程中 审批 更新流程变量参数var 也可以进行更多扩展 实现流程中更新表单内容功能 启动流程实例代码 实现对于流程自定义 动态节点审核人 功…

五款效率软件助你事半功倍

1、🔗 亿可达 作为一款自动化工具,亿可达被誉为国内版的免费Zaiper。它允许用户无需编程知识即可将不同软件连接起来,构建自动化的工作流程。其界面设计清新且直观,描述语言简洁易懂,使得用户可以轻松上手。 2、&…