【pyspark学习从入门到精通24】机器学习库_7

目录

聚类

在出生数据集中寻找簇

主题挖掘

回归


聚类

聚类是机器学习中另一个重要的部分:在现实世界中,我们并不总是有目标特征的奢侈条件,因此我们需要回归到无监督学习的范式,在那里我们尝试在数据中发现模式。

在出生数据集中寻找簇

在这个例子中,我们将使用 k-means 模型在出生数据中寻找相似性:

import pyspark.ml.clustering as clus
kmeans = clus.KMeans(k = 5, 
 featuresCol='features')
pipeline = Pipeline(stages=[
 assembler,
 featuresCreator, 
 kmeans]
)
model = pipeline.fit(births_train)

估计模型后,让我们看看我们是否能找到不同簇之间的一些差异:

test = model.transform(births_test)
test \
 .groupBy('prediction') \
 .agg({
 '*': 'count', 
 'MOTHER_HEIGHT_IN': 'avg'
 }).collect()

前面的代码产生了以下输出:

嗯,MOTHER_HEIGHT_IN 在第 2 个簇中显著不同。仔细研究结果(这里我们显然不会这么做)可能会揭示更多的差异,并允许我们更好地理解数据。

主题挖掘

聚类模型不仅限于数值数据。在自然语言处理领域,像主题提取这样的问题依赖于聚类来检测具有相似主题的文档。我们将经历这样一个例子。

首先,让我们创建我们的数据集。数据由互联网上随机选择的段落组成:其中三个涉及自然和国家公园的主题,其余三个涵盖技术。

text_data = spark.createDataFrame([
 ['''To make a computer do anything, you have to write a 
 computer program. To write a computer program, you have 
 to tell the computer, step by step, exactly what you want 
 it to do. The computer then "executes" the program, 
 following each step mechanically, to accomplish the end 
 goal. When you are telling the computer what to do, you 
 also get to choose how it's going to do it. That's where 
 computer algorithms come in. The algorithm is the basic 
 technique used to get the job done. Let's follow an 
 example to help get an understanding of the algorithm 
 concept.'''],
 (...),
 ['''Australia has over 500 national parks. Over 28 
 million hectares of land is designated as national 
 parkland, accounting for almost four per cent of 
 Australia's land areas. In addition, a further six per 
 cent of Australia is protected and includes state 
 forests, nature parks and conservation reserves.National 
 parks are usually large areas of land that are protected 
 because they have unspoilt landscapes and a diverse 
 number of native plants and animals. This means that 
 commercial activities such as farming are prohibited and 
 human activity is strictly monitored.''']
], ['documents'])

首先,我们将再次使用 RegexTokenizer 和 StopWordsRemover 模型:

tokenizer = ft.RegexTokenizer(
 inputCol='documents', 
 outputCol='input_arr', 
 pattern='\s+|[,.\"]')
stopwords = ft.StopWordsRemover(
 inputCol=tokenizer.getOutputCol(), 
 outputCol='input_stop')

接下来是我们管道中的 CountVectorizer:一个计算文档中单词数量并返回计数向量的模型。向量的长度等于所有文档中所有不同单词的总数,这可以在以下片段中看到:

stringIndexer = ft.CountVectorizer(
 inputCol=stopwords.getOutputCol(), 
 outputCol="input_indexed")
tokenized = stopwords \
 .transform(
 tokenizer\
 .transform(text_data)
 )
 
stringIndexer \
 .fit(tokenized)\
 .transform(tokenized)\
 .select('input_indexed')\
 .take(2)

前面的代码将产生以下输出:

如你所见,文本中有 262 个不同的单词,现在每个文档由每个单词出现次数的计数表示。

现在轮到开始预测主题了。为此,我们将使用 LDA 模型——潜在狄利克雷分配模型:

clustering = clus.LDA(k=2, 
 optimizer='online', 
 featuresCol=stringIndexer.getOutputCol())

k 参数指定我们期望看到的主题数量,优化器参数可以是 'online' 或 'em'(后者代表期望最大化算法)。

将这些谜题拼凑在一起,到目前为止,这是我们最长的管道:

pipeline = ml.Pipeline(stages=[
 tokenizer, 
 stopwords,
 stringIndexer, 
 clustering]
)

我们是否正确地发现了主题?嗯,让我们看看:

topics = pipeline \
 .fit(text_data) \
 .transform(text_data)
topics.select('topicDistribution').collect()

这是我们得到的:

看起来我们的方法正确地发现了所有的主题!不过,不要习惯看到这么好的结果:遗憾的是,现实世界的数据很少是这样的。

回归

我们不能在没有构建回归模型的情况下结束机器学习库的一章。

在这一部分,我们将尝试预测 MOTHER_WEIGHT_GAIN,给定这里描述的一些特征;这些特征包含在这里列出的特征中:

features = ['MOTHER_AGE_YEARS','MOTHER_HEIGHT_IN',
 'MOTHER_PRE_WEIGHT','DIABETES_PRE',
 'DIABETES_GEST','HYP_TENS_PRE', 
 'HYP_TENS_GEST', 'PREV_BIRTH_PRETERM',
 'CIG_BEFORE','CIG_1_TRI', 'CIG_2_TRI', 
 'CIG_3_TRI'
 ]

首先,由于所有特征都是数值型的,我们将它们整合在一起,并使用 ChiSqSelector 仅选择最重要的六个特征:

featuresCreator = ft.VectorAssembler(
 inputCols=[col for col in features[1:]], 
 outputCol='features'
)
selector = ft.ChiSqSelector(
 numTopFeatures=6, 
 outputCol="selectedFeatures", 
 labelCol='MOTHER_WEIGHT_GAIN'
)

为了预测体重增加,我们将使用梯度提升树回归器:

import pyspark.ml.regression as reg
regressor = reg.GBTRegressor(
 maxIter=15, 
 maxDepth=3,
 labelCol='MOTHER_WEIGHT_GAIN')

最后,再次将所有内容整合到一个 Pipeline 中:

pipeline = Pipeline(stages=[
 featuresCreator, 
 selector,
 regressor])
weightGain = pipeline.fit(births_train)

创建了 weightGain 模型后,让我们看看它在我们测试数据上的表现如何:

evaluator = ev.RegressionEvaluator(
 predictionCol="prediction", 
 labelCol='MOTHER_WEIGHT_GAIN')
print(evaluator.evaluate(
 weightGain.transform(births_test), 
 {evaluator.metricName: 'r2'}))

我们得到以下输出:

遗憾的是,这个模型不比抛硬币的结果好。看来,如果没有与 MOTHER_WEIGHT_GAIN 标签更相关的额外独立特征,我们将无法充分解释其方差。
 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/930812.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

渗透测试---burpsuite(5)web网页端抓包与APP渗透测试

声明:学习素材来自b站up【泷羽Sec】,侵删,若阅读过程中有相关方面的不足,还请指正,本文只做相关技术分享,切莫从事违法等相关行为,本人与泷羽sec团队一律不承担一切后果 视频地址:泷羽---bp&…

[LitCTF 2023]破损的图片(初级)

[LitCTF 2023]破损的图片(初级) 我们下载附件得到一个没有后缀的文件,拖去010看一看,发现本来应该是文件头的那部分不大对劲,结合后面四个点以及IHDR,大致也应该知道是啥了 修改第一行为png 89 50 4E 47 0D 0A 1A 0A 00 00 00 …

docker部署RustDesk自建服务器

客户端: Releases rustdesk/rustdesk GitHub 服务端: 项目官方地址:GitHub - rustdesk/rustdesk-server: RustDesk Server Program 1、拉取RustDesk库 docker pull rustdesk/rustdesk-server:latest 阿里云库: docker pu…

智慧银行反欺诈大数据管控平台方案(八)

智慧银行反欺诈大数据管控平台的核心理念,在于通过整合先进的大数据技术、算法模型和人工智能技术,构建一个全面、智能、动态的反欺诈管理框架,以实现对金融交易的全方位监控、欺诈行为的精准识别和高效处理。这一理念强调数据驱动决策&#…

关闭windows11的“热门搜索”

win10搜索栏热门搜索怎么关闭?win10搜索栏热门搜索关闭方法分享_搜索_onecdll-GitCode 开源社区 注册表地址是:计算机\HKEY_CURRENT_USER\SOFTWARE\Policies\Microsoft\Windows\ 最后效果如下:

14.在 Vue 3 中使用 OpenLayers 自定义地图版权信息

在 WebGIS 开发中,默认的地图服务通常会带有版权信息,但有时候我们需要根据项目需求自定义版权信息或添加额外的版权声明。在本文中,我们将基于 Vue 3 的 Composition API 和 OpenLayers,完成自定义地图版权信息的实现。 最终效果…

Dubbo应用篇

文章目录 一、Dubbo简介二、SSM项目整合Dubbo1.生产者方配置2.消费者方配置 三、Spring Boot 项目整合Dubbo1.生产者方配置2.消费者方配置 四、应用案例五、Dubbo配置的优先级别1. 方法级配置(Highest Priority)2. 接口级配置3. 消费者/提供者级配置4. 全…

数据结构与算法 五大算法

文章目录 1,时间复杂度与空间复杂度 2,插入排序 3,希尔排序 4,选择排序 1,单趟排序 2,选择排序PLUS版本 5,冒泡排序 6,快速排序 1,hoare版本 2,挖坑法 前言 …

子类有多个父类的情况下Super不支持指定父类来调用方法

1、Super使用方法 super()函数在Python中用于调用父类的方法。它返回一个代理对象,可以通过该对象调用父类的方法。 要使用super()方法,需要在子类的方法中调用super(),并指定子类本身以及方法的名称。这样就可以在子类中调用父类的方法。 …

Java项目实战II基于微信小程序的消防隐患在线举报系统(开发文档+数据库+源码)

目录 一、前言 二、技术介绍 三、系统实现 四、核心代码 五、源码获取 全栈码农以及毕业设计实战开发,CSDN平台Java领域新星创作者,专注于大学生项目实战开发、讲解和毕业答疑辅导。获取源码联系方式请查看文末 一、前言 随着城市化进程的加快&…

python学opencv|读取视频(一)灰度视频制作和保存

【1】引言 上一次课学习了用opencv读取图像,掌握了三个函数:cv.imread()、cv.imshow()、cv.imwrite() 相关链接如下: python学opencv|读取图像-CSDN博客 这次课我们继续,来学习用opencv读取视频。 【2】学习资源 首先是官网…

buuctf:被嗅探的流量

解压后用wireshark查看 flag{da73d88936010da1eeeb36e945ec4b97}

数据清洗代码:缺失值,异常值,离群值Matlab处理

目录 基本介绍程序设计参考资料基本介绍 一、过程概述 本过程适用于处理SCADA系统采集到的数据,以及具有类似需求的数据集。处理步骤包括缺失值处理、异常值处理和离群值处理,旨在提升数据质量,增强数据的相关性,同时保持数据的原始特征和随机性。 二、缺失值处理 对于SC…

深入浅出:Go语言中的错误处理

深入浅出:Go语言中的错误处理 引言 在任何编程语言中,错误处理都是一个至关重要的方面。它不仅影响程序的稳定性和可靠性,还决定了用户体验的质量。Go语言以其简洁明了的语法和强大的并发模型而著称,但其错误处理机制同样值得关…

青海摇摇了3天,技术退步明显.......

最近快手上的青海摇招聘活动非常火热,我已经在思考是否备战张诗尧的秋招活动。开个玩笑正片开始: 先说一下自己的情况,大专生,20年通过校招进入杭州某软件公司,干了接近4年的功能测试,今年年初&#xff0c…

【计算机网络】 —— 数据链路层(壹)

文章目录 前言 一、概述 1. 基本概念 2. 数据链路层的三个主要问题 二、封装成帧 1. 概念 2. 帧头、帧尾的作用 3. 透明传输 4. 提高效率 三、差错检测 1. 概念 2. 奇偶校验 3. 循环冗余校验CRC 1. 步骤 2. 生成多项式 3. 例题 4. 总结 四、可靠传输 1. 基本…

敏捷开发之路

1. 引言 最近有个企业软件开发项目,用户要求采用敏捷开发的方法实施项目。以前也参加过敏捷方法的培训,结合最近找的敏捷开发材料,形成了下面的敏捷实施过程内容。 以下采用了QAD量化敏捷开发方法,关于此方法详细参考内容见最后…

Linux-音频应用编程

ALPHA I.MX6U 开发板支持音频,板上搭载了音频编解码芯片 WM8960,支持播放以及录音功能!本章我们来学习 Linux 下的音频应用编程,音频应用编程相比于前面几个章节所介绍的内容、其难度有所上升,但是笔者仅向大家介绍 Li…

电影院订票选座小程序+ssm

题目:电影院订票选座小程序的设计与实现 摘 要 由于APP软件在开发以及运营上面所需成本较高,而用户手机需要安装各种APP软件,因此占用用户过多的手机存储空间,导致用户手机运行缓慢,体验度比较差,进而导致…

【网络】网络基础知识(协议、mac、ip、套接字)

文章目录 1. 计算机网络的背景2. 认识网络协议2.1 协议分层2.2 OS与网络的关系 3. 网络传输基本流程3.1 局域网通信流程3.2 跨网络通信流程 4. Socket 编程预备4.1 理解源IP地址和目的IP地址4.2 端口号与Socket4.3传输层的典型代表4.4 网络字节序 5. socket 编程接口5.1 介绍5.…