数据挖掘复盘——apriori

read_csv函数返回的数据类型是Dataframe类型 

对于Dataframe类型使用条件表达式 

df=df.loc[df.loc[:,0]==2]
  1. df: 这是一个DataFrame对象的变量名,表示一个二维的表格型数据结构,类似于电子表格或SQL表。

  2. df.loc[:, 0]: 这是使用DataFrame的.loc属性来进行选择操作。: 表示选择所有的行,而 , 0 表示选择所有的列中的第一列。这个操作的结果是选取了DataFrame中的第一列数据。

  3. df.loc[df.loc[:, 0] == 2]: 这一部分是将条件筛选应用于DataFrame。具体而言,它选择了第一列中等于2的行。内部的 df.loc[:, 0] == 2 是一个条件表达式,返回一个布尔型的Series,其中元素为True表示对应行的第一列等于2,False表示不等于2。

        通过在loc中嵌套条件表达式,可以实现返回布尔类型series,从而输出对应条件的数据(筛选后的)。

综合起来,整个语句的作用是从DataFrame中选择所有第一列等于2的行,然后将结果重新赋值给变量df。换句话说,它过滤了DataFrame,只保留了第一列中值为2的行。

dropna中axis=1和axis=0分别代表什么

在 Pandas 的 `dropna` 方法中,`axis` 参数用于指定操作的轴,可以是行轴(axis=0)或列轴(axis=1)。具体解释如下:axis=0:表示操作沿着行的方向进行,即删除包含缺失值的行。如果某一行中至少有一个元素是缺失值,整个行将被删除。

  df.dropna(axis=0)

axis=1:表示操作沿着列的方向进行,即删除包含缺失值的列。如果某一列中至少有一个元素是缺失值,整个列将被删除。

  df.dropna(axis=1)

使用这两个选项,你可以根据需要删除DataFrame中包含缺失值的行或列。如果不提供 `axis` 参数,默认值是 `axis=0`,即删除包含缺失值的行。

精简一下,axis=0对应行,axis=1对应列

调用apriori算法之前要使用

te = TransactionEncoder()   # 定义模型

 

转换成list of list形式

将 DataFrame 转换为 Python 列表。这样做的目的可能是为了后续的数据处理,因为一些库(比如 Apriori 算法)可能更适用于处理列表而不是 DataFrame。

df_arr=df.values.tolist()

 

 

df_tf=te.fit_transform(df_arr)
列表中的数值全部转换称为bool类型数据

 

frequent_itemsets = apriori(df,min_support=0.4,use_colnames=True)   # use_colnames=True表示使用元素名字,默认的False使用列名代表元素

使用apriori算法,设置最小置信度以及是否使用列标题。通过上述代码查找对应的频繁项集。

idx = frequent_itemsets["itemsets"].apply(lambda x: 2 in x)

创建一个索引数组,其中每个元素表示对应的项集中是否包含元素2。对于 Series 中的每个元素,这里使用了 apply 函数,其中的 lambda x: 2 in x 是一个匿名函数,表示对于每个频繁项集(表示为 x),检查元素2是否在其中。这一部分的结果是一个包含布尔值的 Series,其中 True 表示对应的频繁项集中包含元素2,而 False 表示不包含。

 

 

print(frequent_itemsets.loc[idx])

 输出包含2项的频繁项集。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/164291.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Java调用com组件之jacob

一、背景介绍 现有标准的 win32 com组件,有如下的参数: 属性 值 说明Program IDyinhai.yh_hb_sctrCOM ClassIDCOM ClassName COClass_yh_hb_sctr Interface TypeDual InterfaceInterface NameIyh_hb_sctr 具有一个方法: yh_hb_call( string…

6个系统设计的基本概念

1*Xl9kK7ffgu18IaJ637-cTg.png 简介 这份综合指南将引导你掌握在系统设计中取得成功所需的基本概念。 垂直和水平扩展 1. 垂直扩展 系统扩展的最直接方式是通过垂直扩展。这涉及升级现有服务器,例如增加更多的RAM或更快的CPU。 1*8OAEF45gAfOxvrTUz6hp3w.png 垂直扩…

《向量数据库指南》——亚马逊云科技向量数据库揭秘:点亮数据未来!

在我们讨论亚马逊云科技向量数据库之前,我们必须先搞懂向量数据库。 那么,向量数据库是什么呢?简单来说,向量数据库就是一种专门用于处理和查询向量数据的数据库。与传统数据库以表格形式组织和存储数据不同,向量数据库采用多维数值数组的形式处理和存储数据。它的主要目标…

从多表连接视图对比人大金仓和Oracle

KING BASE 信息时代,数据是驱动业务决策和创新的核心资源。然而,随着数据量的不断增加,有效地处理和整合数据的过程变得愈发复杂。这时,多表连接视图悄然走进数据库世界,不仅能够将多个表中的数据整合在一起&#xff0…

和解电话(匿名电话)/情侣拉黑联系电话/虚拟号/虚拟中间号/拉黑联系项目代码

和解电话&#xff0c;又名匿名电话 使用中间号转接到被叫人&#xff0c;不显示呼叫人号码&#xff0c;类似美团隐私号 呼叫人A->中间号B->被叫人C 演示地址&#xff1a;微信打开(http://sms.test.4php.top/sms/phone) 实现代码如下 <section class"section&q…

Java工具包Hutool框架

Hutool是一个Java基础工具类,对文件、流、加密解密、转码、正则、线程、XML 等 JDK 方法进行封装,组成各种 Util 工具类。官网地址:https://www.hutool.cn/。 添加依赖 <dependency><groupId>cn.hutool</groupId><artifactId>hutool-all</artif…

【具身智能评估2】具身视觉语言规划(EVLP)数据集基准汇总

参考论文&#xff1a;Core Challenges in Embodied Vision-Language Planning 论文作者&#xff1a;Jonathan Francis, Nariaki Kitamura, Felix Labelle, Xiaopeng Lu, Ingrid Navarro, Jean Oh 论文原文&#xff1a;https://arxiv.org/abs/2106.13948 论文出处&#xff1a;Jo…

WIFI版本云音响设置教程腾讯云平台版本

文章目录 WIFI版本云音响设置教程腾讯云平台版本一、申请设备三元素1.腾讯云物联网平台2.创建产品3.设置产品参数4.添加设备5.获取三元素 二、设置设备三元素1.打开MQTTConfigTools2.计算MQTT参数3.使用windows电脑的WIFI连接到设备热点4.设置参数 三、腾讯云物联网套件协议使用…

基于鼠群算法优化概率神经网络PNN的分类预测 - 附代码

基于鼠群算法优化概率神经网络PNN的分类预测 - 附代码 文章目录 基于鼠群算法优化概率神经网络PNN的分类预测 - 附代码1.PNN网络概述2.变压器故障诊街系统相关背景2.1 模型建立 3.基于鼠群优化的PNN网络5.测试结果6.参考文献7.Matlab代码 摘要&#xff1a;针对PNN神经网络的光滑…

简历技术栈redis点

熟悉Redis常见的数据类型以及缓存问题&#xff0c;如缓存穿透、雪崩 、击穿等 Redis五种数据类型 Redis常用命令 查看所有 keys * 字符串类型string 常用命令 举例&#xff1a; 放置一个字符串数据到redis中&#xff0c;先为数据定义一个名称&#xff0c;比如name,age等&am…

线性方程组

线性方程组 设存在线性方程组 { a 1 , 1 x 1 a 1 , 2 x 2 ⋯ a 1 , n x n b 1 a 2 , 1 x 1 a 2 , 2 x 2 ⋯ a 2 , n x n b 2 ⋮ ⋮ a m , 1 x 1 a m , 2 x 2 ⋯ a m , n x n b m \left.\left\{\begin{array}{l}a_{1,1}x_1a_{1,2}x_2\cdotsa_{1,n}x_nb_1\\a_{2,1}…

大模型的语言能力

NLP作为一个领域为基础模型开辟了道路。虽然这些模型在标准基准测试中占据主导地位&#xff0c;但这些模型目前获得的能力与那些将语言描述为人类交流和思维的复杂系统的能力之间存在明显的差距。针对这一点&#xff0c;我们强调语言变异的全部范围&#xff08;例如&#xff0c…

大模型的视觉能力

摘要&#xff1a; 计算机视觉引领了人工智能中深度学习的采用&#xff0c;这表明在大型注释数据集上预训练的模型可以转移到许多下游设置。现在&#xff0c;在网络规模的原始数据而不是策划的数据集上进行预训练&#xff0c;基础大模型在计算机视觉中正在崛起。这些模型…

Windows安装多个版本的Java

在做持续集成CI/CD时&#xff0c;需要用到Jenkins&#xff0c;本人爱好使用各种最新版&#xff0c;down下来之后发现&#xff0c;新版只支持Java11以上的版本了&#xff01;&#xff01; 苦苦找了很久&#xff0c;找不到正规Java8版本的Jenkins安装包&#xff01; 干脆换个思路…

盘点54个Python实用工具源码Python爱好者不容错过

盘点54个Python实用工具源码Python爱好者不容错过 学习知识费力气&#xff0c;收集整理更不易。 知识付费甚欢喜&#xff0c;为咱码农谋福利。 链接&#xff1a;https://pan.baidu.com/s/1OXyEh-Yy3JI90jvn6d6wRw?pwd8888 提取码&#xff1a;8888 项目名称 7z辅助破解工…

遥感数据

在研究中&#xff0c;我们常需要遥感数据。在下面的网站中&#xff0c;可以得到遥感数据。 EarthExplorer (usgs.gov)https://earthexplorer.usgs.gov/登陆网站&#xff1a; 通常&#xff0c;在Additional Criteria中&#xff0c;可以下载遥感数据。 不过&#xff0c;这个选项…

html综合笔记:设计实验室主页

&#xff11; 主页来源及效果 Overview - Lab Website Template docs (gitbook.io) greenelab/lab-website-template: An easy-to-use, flexible website template for labs (github.com) 2 创建网页 3 主要的一些file 3.1 index.md 主页面 3.1.1 intro 3.1.2 highlight …

mysql优化之explain 以及 索引优化

Mysql安装文档参考&#xff1a;https://blog.csdn.net/yougoule/article/details/56680952 Explain工具介绍 使用EXPLAIN关键字可以模拟优化器执行SQL语句&#xff0c;分析你的查询语句或是结构的性能瓶颈 在 select 语句之前增加 explain 关键字&#xff0c;MySQL 会在查询上设…

Python 如何实现备忘录设计模式?什么是备忘录设计模式?Python 备忘录设计模式示例代码

什么是备忘录&#xff08;Memento&#xff09;设计模式&#xff1f; 备忘录&#xff08;Memento&#xff09;设计模式是一种行为型设计模式&#xff0c;用于捕获一个对象的内部状态&#xff0c;并在对象之外保存这个状态&#xff0c;以便在需要时恢复对象到先前的状态。这种模…

腾讯云服务器带宽计费模式_按流量和带宽收费说明

腾讯云服务器带宽计费模式分为“按带宽计费”和“按使用流量”两种计费模式&#xff1a;按带宽计费是预付费&#xff0c;一次性购买固定带宽值&#xff0c;先付费&#xff1b;按使用流量计费是先使用后付费&#xff0c;根据云服务器公网出方向实际产生流量来计算。如何选择带宽…