基于Python的k-means聚类分析算法的实现与应用,可以用在电商评论、招聘信息等各个领域的文本聚类及指标聚类,效果很好

以微博考研话题为例

思路步骤:

数据清洗:

使用pandas读取数据文件,并进行数据清洗和预处理,包括去除重复值、数据替换等。

数据处理实现:

数据处理的过程如下:

数据清洗主要包括去重和数据转换两个步骤。

首先,通过使用drop_duplicates函数对原始数据进行去重操作。在代码中,根据内容这一列进行去重,并将去重后的结果重新赋值给新的DataFrame。这样可以确保每条内容的唯一性,避免出现重复的数据。

接下来,进行数据转换的步骤。转换主要是针对性别和是否认证两个数据,将字符串通过map函数都替换为数值,从而实现清洗效果。

数据清洗是数据分析的前提和基础,通过去重和替换等步骤,可以对原始数据进行初步的处理和整理,为后续的数据分析和挖掘提供高质量、准确的数据基础。清洗后的数据具有更好的可用性和可靠性,能够提供更准确、可靠的结果和结论,从而支持决策和解决实际问题的需求。

聚类分析(main.py):

聚类数量的选择和评估使用拐点法和轮廓系数法实现。通过评估不同聚类数量下的总的簇内离差平方和,可以找到一个合适的聚类数量,以便在K-Means算法(k-means.py)中应用于考研数据的聚类分析。选择最佳的聚类数量有助于获得更准确且有意义的聚类结果,并提供对数据的更深入理解和洞察。

拐点法:

1.聚类数量的选择:

通过调整K值(簇的个数),探索不同聚类数量下的聚类效果。在代码中,通过设置clusters参数来确定聚类数量的范围。例如,设置clusters = 15表示尝试聚类数量从1到15的情况。

2.总的簇内离差平方和(Total SSE)的评估:

使用K-Means算法进行聚类,并计算每个簇的样本离差平方和(SSE)。然后,将每个簇的SSE求和,得到总的簇内离差平方和(Total SSE)。在代码中,通过自定义函数k_SSE绘制了不同聚类数量(K值)与总的簇内离差平方和之和的折线图。

3.拐点法选择最佳聚类数量:

在折线图中观察聚类数量(K值)与总的簇内离差平方和之和的关系。寻找一个拐点,即曲线开始趋于平缓的位置。这个拐点对应的聚类数量通常被认为是最佳的聚类数量。在代码中,通过绘制折线图来观察聚类数量与总的簇内离差平方和之和之间的关系,并根据拐点法选择最佳的聚类数量,拐点法得出的结果如图所示可知,该方法的拐点为3。

轮廓系数法

在选择合适的聚类数量时,使用了轮廓系数法。具体做法是,对于聚类数量从2到14的范围内的每个值,计算对应聚类数量下的轮廓系数得分。轮廓系数(silhouette score)是一种用于评估聚类质量的指标,其取值范围为[-1, 1],越接近1表示聚类效果越好。通过绘制轮廓系数得分随聚类数量变化的曲线图,可以观察到不同聚类数量下的聚类效果,并选择最佳的聚类数量。

最后,代码使用matplotlib库绘制了轮廓系数得分随聚类数量变化的曲线图,横坐标为聚类数量(N 簇),纵坐标为轮廓系数得分(score)。根据曲线图可以进行观察和判断,选择合适的聚类数量,轮廓系数法得到的结果如图可知最合适聚类数=3.

聚类分析实现与结果可视化

实现聚类分析的过程,首先读取数据,并进行数据清洗和预处理。清洗部分包括删除含有空值的数据,预处理部分对数据进行了格式修改和标准化处理。

接下来,使用轮廓系数法选择合适的聚类数量,并绘制了聚类数量与轮廓系数得分之间的曲线图。通过观察曲线图,可以选择最佳的聚类数量。

然后,根据选择的聚类数量,使用KMeans算法进行聚类,并将聚类结果可视化。代码中通过降维算法t-SNE对数据进行降维,然后绘制了降维后的数据和聚类中心的散点图,并根据聚类结果进行着色。最后完成了数据的聚类分析,帮助理解数据在不同特征上的聚类情况,聚类结果如图,其中横坐标是数据降维之后点数据与中心点距离的横坐标,Y轴是数据降维之后点数据与中心点距离的纵坐标,图中的+代表每一个类的中心点

根据对微博内容的聚类分析,可以看出用户在微博中主要讨论了考研相关话题。其中包括考研备考经历、学习进度记录、各学校考研信息分享等内容。用户们在微博中表达了对考研的焦虑、努力学习的决心以及对未来的期待。有些用户分享了自己的学习计划和成果,也有用户寻求学习伙伴互相督促。此外,还有用户分享了考研资讯、心得体会和对未来的展望。整体来看,这些微博内容反映了考研群体的学习状态和情绪,展现了他们对考研目标的追求和努力,同时也体现了他们之间的互动和支持,共同面对考研的压力和挑战。

类别一:考研备考经历分享

这类微博内容主要包括用户对自己考研备考过程中的心情体验、努力学习的决心以及对未来的期待和规划的分享。用户们在微博中记录了自己的学习进度、备考经历和成果,表达了对考研的焦虑和对未来的期

类别二:学习进度记录和资讯分享

这类微博内容主要涵盖用户的学习进度记录、复习计划安排、学习资料整理和考研资讯分享等内容。用户们在微博中分享了自己的学习计划、复习笔记、真题练习情况,也有用户分享了各学校考研信息和最新动态。

类别三:寻求学习伙伴和互相督促

这类微博内容主要是用户在微博上寻找学习伙伴,希望能够互相督促、分享学习经验和生活感悟。用户们希望通过微博平台找到志同道合的伙伴,共同努力学习,互相支持和鼓励。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/655352.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

C++的第一道门坎:类与对象(二)

一.类中生成的默认成员函数详解 0.类的6个默认成员函数 编译器会给类生成六个默认成员函数,在类中即使我们什么都不做,也会自动生成。 默认成员函数:用户没有显式实现,编译器会自动生成的成员函数称为默认成员函数。 下面我们逐…

ubuntu 配置用户登录失败尝试次数限制

前言: 通过修改pam配置来达到限制密码尝试次数! 1:修改 /etc/pam.d/login 配置(这里只是终端登录配置,如果还需要配置SSH远程登录限制,只配置下面的 /etc/pam.d/pam.d/common-auth 即可) vim…

如何克隆非默认分支

直接git clone下来的我们知道是默认分支,那如何克隆其他分支呢: 比如这个,我们想克隆AdvNet。 我们可以在本地文件夹打开Git Bash 依次输入: git clone --branch AdvNet https://github.com/wgcban/SemiCD.git cd SemiCD git b…

【全开源】旅游系统源码(Uniapp+FastAdmin+ThinkPHP)

一款基于UniappFastAdminThinkPHP开发的旅游系统,包含消费者端(手机端)、机构工作人员(手机端)、机构端(PC)、平台管理端(PC)。机构可以发布旅游线路、景点项目&#xff…

计算机网络学习笔记——网络层(b站)

目录 网络层概述 网络层提供的两种服务 ①面向连接的虚电路服务 ②无连接的数据报服务 IPv4 路由选择 路由器转发IP数据报 静态路由选择 动态路由选择 路由信息协议RIP 开放最短路径优先OSPF(Open Shortest Path First) 内部网关协议IGP&…

【MATLAB】数字滤波器的设计

一、引言 在信号处理过程中,所处理的信号往往混有噪声,从接收到的信号中消除或减弱噪声是信号传输和处理中十分重要的问题。根据有用信号和噪声的不同特性,提取有用信号的过程称为滤波,实现滤波功能的系统称为滤波器。在以往的模拟电路中用的…

10.RedHat认证-Linux文件系统(上)

10.RedHat认证-Linux文件系统(上) ⽂件系统,顾名思义,是⼀个组织⽂件的“系统(system)”。file system ⽂件系统是⽤来组织⽂件的,通俗⼀点理解的话,⽂件系统是⽤来存储⽂件的。 硬盘是不能直接存放⽂件或数据。 我们通过将硬…

美光EMMC芯片丝印型号查询 8LK17/D9PSK, OXA17/JY997

问题说明 最近在使用美光EMMC的时候,发现通过芯片丝印查询不到 芯片的规格说明书; 经过查阅资料,发现美光的EMMC芯片 “由于空间限制,FBGA 封装组件具有与部件号不同的缩写部件标记”,需要通过官网查询丝印的FBGA cod…

百度智能云千帆AppBuilder升级!开放多源模型接入,思考模型再次加速!

>>【v0.5.4版本】 上线时间:2024/5/24 关键发版信息: 大模型优化:开放多源模型接入,思考模型再次加速! Agent思考模型:新增AppBuilder专用版模型ERNIE Speed-AppBuilder,自主任务规划…

Euler 欧拉系统介绍

Euler 欧拉系统介绍 1 简介重要节点与版本EulerOS 特色EulerOS 与 openEuler 区别联系Euler 与 HarmonyOS 区别联系 2 openEuler特色支持 ARM,x86,RISC-V 等全部主流通用计算架构融入 AI 生态嵌入式实时能力提升引入 OpenHarmony 一些突出功能 参考 1 简…

BIO/NIO学习

在传送文件的时候常常出现这么一个问题,就是当客户端的文件全部传送完了之后,服务器没有接收到客户端那边传过的停止信号,所以服务器也就跟着客户端停止运行了,我们可以使用 try {socket.shutdownOutput();} catch (IOException e…

VSCode安装platformio插件

文章目录 一、安装VSCode二、安装platformio(一)整理文件夹(二)整理Python环境(三)安装platformio 三、创建ESP8266项目四、使用命令行创建项目五、创建项目太久怎么办六、参考链接 一、安装VSCode VSCode…

这款网站测试工具,炫酷且强大!【送源码】

随着互联网的普及和发展,Web 应用程序的数量也越来越多,各种网络问题也是层出不穷,因而监测这些 Web 应用程序的性能和可用性变得非常重要。 今天的文章,了不起和大家分享一款十分好用的的网站分析项目 - Web-Check。 项目简介 …

xss-labs之level9、level10

一、level9 1、测试分析 尝试了之前的payload,发现都不行,看源码发现多了个strpos函数, strpos() 是一个在 PHP 中用于查找子串首次出现位置的函数。它接受两个参数:要搜索的字符串(主字符串)和要查找的子…

【PHP【实战训练】系统性学习】——最经典的web端头像上传,数据库内容安全精简

👨‍💻个人主页:开发者-曼亿点 👨‍💻 hallo 欢迎 点赞👍 收藏⭐ 留言📝 加关注✅! 👨‍💻 本文由 曼亿点 原创 👨‍💻 收录于专栏&#xff1a…

DSP6657 GPIO中断学习

1 简介 使用创龙板卡的KEY2按键通过中断的方式控制LED3的亮灭 2 中断学习 在C665x设备上,CPU中断是通过C66x CorePac中断控制器进行配置的。该中断控制器允许最多128个系统事件被编程到任意12个CPU可屏蔽中断输入(CPUINT4至CPUINT15)、CPU…

Spring:事务

1. 简介 spring对jdbc进行封装&#xff0c;简化对数据库的操作 2. HelloWorld 1. 搭建模块 2.加入依赖 <dependencies><!--spring jdbc Spring 持久化层支持jar包--><dependency><groupId>org.springframework</groupId><artifactId>s…

5.28OpenMV入门

10分钟快速上手 OpenMV中文入门教程 使用的元件 先安装好&#xff0c;上述链接上手 IDE显示颜色阈值&#xff0c;同时也配有示例文件&#xff0c;如下图打开&#xff0c;helloworld 你好&#xff0c;世界&#xff01; OpenMV中文入门教程&#xff0c;在官方也有每一个的详细…

那智不二越机器人维修案例分享

那智不二越工业机器人在工业范围内广泛应用于各种生产领域。其示教器作为人机交互的重要设备&#xff0c;常常需要定期维护和Nachi不二越机械手示教盒修理。 【Nachi不二越机器人示教器维修步骤】 1. 关闭电源 在进行任何那智不二越机器人维修操作之前&#xff0c;务必确保机器…

黑马es0-1实现自动补全功能

1、安装分词器 上github上找人做好的分词器&#xff0c;放到es-plugin数据卷里&#xff0c;然后重启es即可 2、自定义分词器 elasticsearch中分词器(analyzer)的组成包含三部分: character filters:在tokenizer之前对文本进行处理。例如删除字符、替换字符 …