机器学习基础之《回归与聚类算法(7)—无监督学习K-means算法》

一、什么是无监督学习

1、没有目标值—无监督学习
一家广告平台需要根据相似的人口学特征和购买习惯将美国人口分成不同的小组,以便不同的用户采取不同的营销策略。
Airbnb需要将自己的房屋清单分组成不同的社区,以便用户能更轻松地查阅这些清单(对房屋进行分类)。
一个数据科学团队需要降低一个大型数据集的维度的数量,以便简化建模和降低文件大小(比如PCA降维)。

二、无监督学习包含算法

1、聚类
K-means(K均值聚类)

2、降维
PCA

三、K-means原理

1、K-means的聚类效果图
一开始拿到的数据是这样的

要把它分成三个堆:

2、K-means聚类步骤
(1)随机设置K个特征空间内的点作为初始的聚类中心
K值:超参数

K值如何确定?
1)根据需求,比如公司要求把客户分成三个类别,那么K值就取3
2)如果没有需求,可以做网格搜索,调节超参数,选择最合适的K值

PS:超参数是指在训练模型之前需要手动设置的参数。用户可以自己设定的参数,就叫超参数。

第一步就是随机找到3个点作为初始聚类中心

(2)对于其他每个点计算到K个中心的距离,未知的点选择最近的一个聚类中心点作为标记类别
计算每个点到聚类中心的距离,取距离最近的那个把它颜色标记成一样的颜色

(3)接着对着标记的聚类中心之后,重新计算出每个聚类的新中心点(平均值)
对每个堆重新求一个中心点,得到新的3个聚类中心

(4)如果计算得出的新中心点与原中心点一样,那么结束,否则重新进行第二步过程
定标准的时候如果只是相近,没有完全重合,我们也可以终止聚类

3、KNN和K-means的区别
一个是预测的样本计算和每个样本的距离,然后根据每个样本的分类选择合适的K,来预测要预测的样本的类别。
这个是选择合适的K个样本。然后计算n-K的样本到这个K个样本的距离,近的就归哪个。
虽然都是物以群分。但是,一个是有目标值,一个没有。

4、3个堆的中心点怎么求
A(a1, b1, c1)
B(a2, b2, c2)
...
Z(a26, b26, c26)

比如有A到Z个样本,分别有a、b、c特征值

中心点的坐标,中心点(a平均, b平均, c平均)

四、K-means API

1、sklearn.cluster.KMeans(n_clusters=8, init='k-means++')
k-means聚类
n_clusters:开始的聚类中心数量(K值有几个)
init:初始化方法,默认为'k-means++'(对k-means的优化方法)
labels_:默认标记的类型,可以和真实值比较(不是值比较)。用完之后用点属性查看

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/147935.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

chatGPT真的会改变我们的生活吗?

先不说生活影响有多大,工作职场影响很大,现在在职场,随处可见Chat GPT的身影 OpenAI 开发的 ChatGPT 和类似的人工智能工具在短时间内不会取代我们的工作。但是,在科技、媒体等许多行业中,它们可以帮助员工更好、更快地…

正版软件|Soundop 专业音频编辑器,实现无缝的音频制作工作流程

关于Soundop Soundop 音频编辑器 直观而专业的音频编辑软件,用于录制、编辑、混合和掌握音频内容。 Soundop 是一款适用于 Windows 的专业音频编辑器,可在具有高级功能的直观灵活的工作区中录制、编辑和掌握音频并混音轨道。音频文件编辑器支持波形和频谱…

企业云盘:作用和特点全解析

一、什么是企业云盘? 企业云盘是基于云计算理念推出的企业数据网络存储和管理解决方案,利用互联网后台数据中心的海量计算和存储能力为企业提供数据汇总分发、存储备份和管理等服务。 简单来讲,企业云盘其实就是企业网盘,是一种为…

一则DNS被重定向导致无法获取MySQL连接处理

同事反馈xwik应用端报java exception 获取MySQL连接超时无法连接到数据库实例 经过告警日志发现访问进来的IP地址数据库端无法被解析,这里可以知道问题出现在Dns配置上了 通过以上报错检查/etc/resolve.conf 发现namesever 被重定向设置成了114.114.114.114 域名 …

如何用AI交互数字人打造数智文旅?

随着旅游业不断发展壮大,景区的功能不断扩展、业态不断延伸、硬件不断升级,但如何利用自身文旅资源打造差异化、数智化文旅景点,吸引游客与市民成为一大经营痛点。 而AI交互数字人的出现,可以极大地将文旅资源以可视化、具象化的…

资讯 | 图扑应邀出席“数字孪生•筑梦末来”数字工程论坛

2023"数字孪生 筑梦未来"数字工程论坛于 11 月 8 日在杭州拉开帷幕。该论坛是由中国电建集团华东勘测设计研究院有限公司发起创办全国性“工程IT”高端交流平台活动。 图扑软件作为受邀参展企业之一,有幸与诸位专家学者、参展客户共同领略数字化发展的成…

洗内裤的小洗衣机买啥牌子的?口碑好的迷你洗衣机推荐

迷你洗衣机是一种小型的家用洗衣设备,主要是由于其小巧便携而且实用性高的特点,非常适用于小户型家庭、单身人士、学生宿舍等场所,如今随着迷你洗衣机在市场上越来越受到消费者的青睐。那么,迷你洗衣机哪个牌子好用又不贵呢&#…

职场新人,如何提高自我管理能力?

作为职场新人,一定要学会个人管理。 入职三个月多,我总结了一个经验,作为职场新人,我越加觉得自我管理重要性。 在职场一个普遍的现象:在领导眼里,同样的问题在老职员身上不是问题,在新员工身…

【华为OD题库-022】阿里巴巴找黄金宝箱(IV)-java

题目 一贫如洗的椎夫阿里巴巴在去砍柴的路上,无意中发现了强盗集团的藏宝地,藏宝地有编号从0-N的子,每个箱子上面有一个数字,箱子排列成一个环,编号最大的箱子的下一个是编号为0的箱子。请输出每个箱子贴的数字之后的第…

冰点还原精灵Deep Freeze for mac版

Deep Freeze是一种系统恢复软件,它可以保护计算机系统免受恶意软件和不必要的更改。它的基本功能是在计算机重启后恢复到原始状态,即使用户进行了任何更改也不例外。 Deep Freeze主要用于公共场所的计算机,如图书馆、学校实验室和互联网咖啡馆…

卡尔曼滤波器第 2 部分 - 贝叶斯滤波器

一、说明 这是卡尔曼滤波器系列的第二部分,我们在概念和代码方面对卡尔曼滤波器进行了基于示例的理解。在第一部分中,我们对卡尔曼滤波器有了直观的理解,然后是基于数值的 Alpha-Beta 滤波器(构成卡尔曼滤波器的基础)的…

时分复用(Time Division Multiplexing, TDM)介绍(同步时分复用、异步时分复用(统计时分复用))

文章目录 时分复用技术: 原理与应用概述1. 时分复用的基本原理1.1 定义和工作方式1.2 同步与异步时分复用 2. 时分复用的技术特点2.1 优点2.2 缺点 3. 时分复用的应用3.1 电信网络3.2 数字视频广播3.3 光纤通信 4. 时分复用模拟代码参考文献总结 时分复用技术: 原理与应用 概述…

使用VC++设计程序:对于一幅256级灰度图像,求其一元熵值、二维熵值

数字图像处理–实验二B图像的一维熵与二维熵算法 本文主要是对图像进行一维熵以及二维熵的计算,下面附有实现的代码 文章目录 数字图像处理--实验二B图像的一维熵与二维熵算法一、 实验内容二、 一维熵1. 一维熵的定义2. 一维熵的C代码实现 三、 二维熵1. 二维熵的定…

seatunnel及web安装常见问题与解决方法

mvn加速下载seatunnel相关jar包 安装seatunnel过程中,解压文件后官方默认提供的connector的jar包只有2个,要想连接mysql,oracle,SqlServer,hive,kafka,clickhouse,doris等时&#x…

Hive 查询优化

Hive 查询优化 -- 本地 set mapreduce.framework.namelocal; set hive.exec.mode.local.autotrue; set mapperd.job.trackerlocal; -- yarn set mapreduce.framework.nameyarn; set hive.exec.mode.local.autofalse; set mapperd.job.trackeryarn-- 向量模式 set hive.vectori…

VSCode配置msvc编译调试环境

1.VS Code简介 VS Code 使用 Electron 框架构建用户界面,该框架使用 Chromium 和 Node.js 构建桌面应用程序。这使得 VS Code 能够在 Windows、Linux 和 macOS 上运行,并且可以使用 Web 技术 (HTML、CSS 和 JavaScript) 构建用户界面。 VS Code 使用 Monaco 引擎来提供文本编辑…

基于Java Web的云端学习系统的设计与实现

末尾获取源码 开发语言:Java Java开发工具:JDK1.8 后端框架:SSM 前端:采用JSP技术开发 数据库:MySQL5.7和Navicat管理工具结合 服务器:Tomcat8.5 开发软件:IDEA / Eclipse 是否Maven项目&#x…

【python自动化】Playwright基础教程(六)事件操作③单击双击计数过滤截图JS注入

【python自动化】Playwright基础教程(六)事件操作③单击&双击&计数&过滤&截图&JS注入 本文目录 文章目录 【python自动化】Playwright基础教程(六)事件操作③单击&双击&计数&过滤&截图&JS注入playwright系列回顾前文代码点击 - click…

使用Java生成图片——功能强大的图形工具

一、引言 Java是一种广泛使用的编程语言,它具有强大的功能和卓越的性能,可以用来创建各种类型的应用程序,包括生成图像。在Java中,可以使用Java的内置类库和第三方库来生成图片。下面是一篇关于Java生成图片的介绍文章。 二、具体…

【概率论】Python:实现求联合分布函数 | 求边缘分布函数 | Joint distribution | Marginal distribution

猛戳订阅! 👉 《一起玩蛇》🐍 💭 写在前面:本章我们将通过 Python 手动实现联合分布函数和边缘分布函数,部署的测试代码放到文后了,运行所需环境 python version > 3.6,numpy &g…