Pandas数据可视化

pandas库是Python数据分析的核心库 它不仅可以加载和转换数据,还可以做更多的事情:它还可以可视化 pandas绘图API简单易用,是pandas流行的重要原因之一

Pandas 单变量可视化

单变量可视化, 包括条形图、折线图、直方图、饼图等

数据使用葡萄酒评论数据集,来自葡萄酒爱好者杂志,包含10个字段,150929行,每一行代表一款葡萄酒

加载数据

条形图是最简单最常用的可视化图表 在下面的案例中,将所有的葡萄酒品牌按照产区分类,看看哪个产区的葡萄酒品种多:

 先将plot需要的参数打包成一个字典,然后在使用**解包(防止传进去的成为一个参数)

上面的图表说明加利福尼亚生产的葡萄酒比其他省都多

 也可以折算成比例, 计算加利福尼亚葡萄酒占总数的百分比 :

          

条形图(柱状图)非常灵活: 高度可以代表任何东西,只要它是数字即可 每个条形可以代表任何东西,只要它是一个类别即可。

也可以用来展示《葡萄酒杂志》(Wine Magazine)给出的评分数量的分布情况: 

 

如果要绘制的数据不是类别值,而是连续值比较适合使用折线图 :

柱状图和折线图区别 柱状图:简单直观,很容易根据柱子的长短看出值的大小,易于比较各组数据之间的差别

折线图: 易于比较各组数据之间的差别; 能比较多组数据在同一个维度上的趋势; 每张图上不适合展示太多折线 

面积图就是在折线图的基础上,把折线下面的面积填充颜色 :

 

直方图 

直方图看起来很像条形图, 直方图是一种特殊的条形图,它可以将数据分成均匀的间隔,并用条形图显示每个间隔中有多少行, 直方图柱子的宽度代表了分组的间距,柱状图柱子宽度没有意义

直方图缺点:将数据分成均匀的间隔区间,所以它们对歪斜的数据的处理不是很好:

 

在第一个直方图中,将价格>200的葡萄酒排除了。

在第二个直方图中,没有对价格做任何处理,由于有个别品种的酒价格极高,导致刻度范围变大,导致直方图的价格分布发生变化 。

数据倾斜: 当数据在某个维度上分布不均匀,称为数据倾斜

  1. 一共15万条数据,价格高于1500的只有三条
  2. 价格高于500的只有73条数据,说明在价格这个维度上,数据的分布是不均匀的
  3. 直方图适合用来展示没有数据倾斜的数据分布情况,不适合展示数据倾斜的数据

饼图 

饼图也是一种常见的可视化形式 

reviews['province'].value_counts().head(10).plot.pie()

 

饼图的缺陷:饼图只适合展示少量分类在整体的占比

  1. 如果分类比较多,必然每个分类的面积会比较小,这个时候很难比较两个类别
  2. 如果两个类别在饼图中彼此不相邻,很难进行比较 
  3. 可以使用柱状图图来替换饼图

Pandas 双变量可视化

数据分析时,我们需要找到变量之间的相互关系,比如一个变量的增加是否与另一个变量有关,数据可视化是找到两个变量的关系的最佳方法;

散点图

最简单的两个变量可视化图形是散点图,散点图中的一个点,可以表示两个变量

reviews[reviews['price'] < 100].sample(100).plot.scatter(x='price', y='points’)

调整图形大小,字体大小,由于pandas的绘图功能是对Matplotlib绘图功能的封装,所以很多参数pandas 和 matplotlib都一样

reviews[reviews['price'] < 100].sample(100).plot.scatter(x='price', y='points',figsize=(14,8),fontsize = 16)

修改x轴 y轴标签字体 

 

 

 上图显示了价格和评分之间有一定的相关性:也就是说,价格较高的葡萄酒通常得分更高。

散点图最适合使用相对较小的数据集以及具有大量唯一值的变量。 有几种方法可以处理过度绘图。 一:对数据进行采样 二:hexplot(蜂巢图)

hexplot

hexplot将数据点聚合为六边形,然后根据其内的值为这些六边形上色:

 

上图x轴坐标缺失,属于bug,可以通过调用matplotlib的api添加x坐标:

 

该图中的数据可以和散点图中的数据进行比较,但是hexplot能展示的信息更多

从hexplot中,可以看到《葡萄酒杂志》(Wine Magazine)评论的葡萄酒瓶大多数是87.5分,价格20美元 Hexplot和散点图可以应用于区间变量和/或有序分类变量的组合。 

堆叠图(Stacked plots) 

  • 展示两个变量,除了使用散点图,也可以使用堆叠图
  • 堆叠图是将一个变量绘制在另一个变量顶部的图表
  • 接下来通过堆叠图来展示最常见的五种葡萄酒

 从结果中看出,最受欢迎的葡萄酒是,Chardonnay(霞多丽白葡萄酒),Pinot Noir(黑皮诺),Cabernet Sauvignon(赤霞珠),Red Blend(混酿红葡萄酒) ,Bordeaux-style Red Blend (波尔多风格混合红酒)

从数据中取出最常见的五种葡萄酒:

通过透视表找到每种葡萄酒中,不同评分的数量 :

 

从上面的数据中看出,行列分别表示一个类别变量(评分,葡萄酒类别),行列交叉点表示计数,这类数据很适合用堆叠图展示

 

折线图在双变量可视化时,仍然非常有效 

wine_counts.plot.line()

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/285819.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

论文解读:A New CNN Building Block for Low-ResolutionImages and Small Objects

引言 之前通过stride和pooling这些下采样操作&#xff0c;但是这些操作都会或多或少丢失图像的信息&#xff0c;所以这不适用于具有低分辨率图像和小物体的更困难的任务上。像池化选择maxpooling或者是averagepooling、卷积的步长(太大的话会丢失信息)都是很头疼的问题&#x…

k8s陈述式资源管理(命令行)

1、资源管理 &#xff08;1&#xff09;陈述式资源管理&#xff08;常用——查、增&#xff09; 使用kubectl工具进行命令行管理 ①特点&#xff1a;对资源的增删查比较方便&#xff0c;对改不友好 ②优点&#xff1a;90%以上的场景都可以满足 ③缺点&#xff1a;命令冗长…

山海鲸可视化:智慧教育解决方案

山海鲸可视化是一款钻研数字孪生行业的免费数字孪生软件&#xff0c;为各行业提供了许多优质的数字化解决方案&#xff0c;在教育行业&#xff0c;山海鲸可视化为学生和老师提供了全方位的教育资源和智能辅助工具&#xff0c;以提高学习效率和教学质量。作为山海鲸可视化软件的…

基于ThinkPHP的云盘系统Cloudreve本地搭建并实现远程访问

文章目录 1、前言2、本地网站搭建2.1 环境使用2.2 支持组件选择2.3 网页安装2.4 测试和使用2.5 问题解决 3、本地网页发布3.1 cpolar云端设置3.2 cpolar本地设置 4、公网访问测试5、结语 1、前言 自云存储概念兴起已经有段时间了&#xff0c;各互联网大厂也纷纷加入战局&#…

创新技术,助力电力行业:配网故障定位系统的应用与优势

随着科技的不断发展&#xff0c;电力行业也在不断地进行技术创新。在这个过程中&#xff0c;配网故障定位系统作为一种新型的技术手段&#xff0c;为电力行业的安全生产和管理提供了有力的支持。本文将介绍配网行波型故障预警与定位系统的应用与优势&#xff0c;以期为电力行业…

2024年到了!质量工程师如何在这个人工智能的时代中生存?

随着2024年的到来&#xff0c;我们正式步入了一个以人工智能为核心的时代。在这个时代&#xff0c;质量工程师面临的挑战和机遇前所未有&#xff0c;不断更新的技术要求他们必须不断学习和适应。 人工智能在质量管理中的应用 人工智能和机器学习在预测和识别潜在质量问题方面…

再见2023,你好2024!

大家好&#xff0c;我是老三&#xff0c;本来今天晚上打算出去转一转&#xff0c;陆家嘴打车实在太艰难了&#xff0c;一公里多的路&#xff0c;司机走了四十分钟&#xff0c;还没到&#xff0c;再加上身体不适&#xff0c;咳嗽地比较厉害&#xff0c;所以还是宅在酒店里&#…

java面向对象构造器--学习笔记

什麽是构造器&#xff1f; 构造器就是一种特殊的方法&#xff0c;特殊在&#xff1a; 方法名 类名不能写返回值类 只要声明了这么一个特殊的方法&#xff0c;那么这个方法就不叫方法&#xff0c;叫做构造器了 构造器有什么特点&#xff1f; 创建对象时&#xff0c;对象会去…

编程语言的进化:智能化与多样化的未来

作为沟通人类与机器的桥梁&#xff0c;编程语言的发展一直是技术进步的重要推动力。在技术的金字塔上&#xff0c;编程语言作为软件开发的基石&#xff0c;其每一次革新都将引领着信息时代的下一个潮流。从早期的机器码&#xff0c;到现代的高级语言&#xff0c;编程语言的进化…

搭建Python开发环境 Pycharm编程 + 嵌入 (保姆级教程)

搭建环境 这部分也比较简单&#xff0c;因为我们刚初始化的树莓派&#xff0c;就像一个婴儿一样&#xff0c;非常干净&#xff0c;所以流程很轻松。 建立远程连接后&#xff0c;终端输入以下指令&#xff1a; 更新树莓派 sudo apt-get update sudo apt-get upgrade -y 下载…

YOLOv7独家原创改进:提出一种新的Shape IoU,更加关注边界框本身的形状和尺度,对小目标检测也很友好 | 2023.12.29收录

💡💡💡本文改进:一种新的Shape IoU方法,该方法可以通过关注边界框本身的形状和尺度来计算损失,解决边界盒的形状和规模等固有属性对边界盒回归的影响。 💡💡💡对小目标检测涨点明显,在VisDrone2019、PASCAL VOC均有涨点 收录YOLOv7原创自研 https://blog.csdn…

揭秘真相!云汇优想短视频带货是真的吗?

在数字化浪潮的推动下&#xff0c;短视频带货已成为电商领域的新宠。许多平台如雨后春笋般涌现&#xff0c;云汇优想就是其中之一。然而&#xff0c;面对这样的新兴事物&#xff0c;我们不禁要问&#xff1a;云汇优想短视频带货是真的吗&#xff1f;今天&#xff0c;我们就来一…

异地环控设备如何远程维护?贝锐蒲公英解决远程互联难题

青岛某企业致力于孵化设备、养禽设备和养猪设备的研发、生产和服务&#xff0c;历经三十多年发展&#xff0c;目前已成长为行业主要的养殖装备及工程服务提供商&#xff0c;产品覆盖养殖产业链中绝大多数环节&#xff0c;涉及自动化设备、环控设备、整体解决方案等。 在实际应用…

【算法与数据结构】738、LeetCode单调递增的数字

文章目录 一、题目二、解法三、完整代码 所有的LeetCode题解索引&#xff0c;可以看这篇文章——【算法和数据结构】LeetCode题解。 一、题目 二、解法 思路分析&#xff1a;暴力解法如下&#xff0c;思路很简单&#xff0c;从右往左遍历&#xff0c;但是会超时。   程序如下…

牛客周赛 Round 26 解题报告 | 珂学家 | 0-1 BFS + 状态机DP

前言 整体评价 T3是一道0-1 BFS题, 这样时间复杂度可以控制在O(n*m), 也可以用优先队列。 T4这类题型&#xff0c;在牛客Round周赛系列出现好多次了&#xff0c;要么状态机DP&#xff0c;要么容斥&#xff0c;如果n很大&#xff0c;就用矩阵幂优化。 欢迎关注 珂朵莉 牛客周…

pytorch深度学习笔记(共计169页,基于本人听完B站小土堆PyTorch深度学习快速入门教程所写)

一、笔记视频 pytorch深度学习&#xff08;共计169页&#xff0c;基于本人听完B站小土堆PyTorch深度学习快速入门教程所写&#xff09; 二、获取方式 方式一&#xff1a; 点击下面的链接 pytorch深度学习笔记 如果链接无法打开 直接复制下方链接即可 https://mall.bilibili.c…

【力扣题解】P501-二叉搜索树中的众数-Java题解

&#x1f468;‍&#x1f4bb;博客主页&#xff1a;花无缺 欢迎 点赞&#x1f44d; 收藏⭐ 留言&#x1f4dd; 加关注✅! 本文由 花无缺 原创 收录于专栏 【力扣题解】 文章目录 【力扣题解】P501-二叉搜索树中的众数-Java题解&#x1f30f;题目描述&#x1f4a1;题解&#x1f…

惯性动作捕捉技术如何应用在数字人驱动、虚拟数字人直播、线下活动?

在数字人热潮影响下&#xff0c;数字人逐渐成为品牌营销中不可忽略的一个载体&#xff0c;品牌可以通过数字人进行内容和营销上的创新&#xff0c;拓宽营销边界&#xff0c;那品牌要如何将数字人驱动起来&#xff0c;应用在虚拟数字人直播、短视频、线下活动等场景&#xff1f;…

【接口自动化】写接口自动化case要注意的点!

可能有人会说&#xff0c;写接口的自动化CASE多简单了&#xff0c;写个参数发送请求完事了&#xff0c;还要注意啥&#xff1f; 没错&#xff0c;相比起UI自动化的case&#xff0c;你要去写各种定位器&#xff0c;接口自动化的case写起来确实容易多了。这也是接口自动化的一个…

STM32CubeMX教程13 ADC - 单通道转换

目录 1、准备材料 2、实验目标 3、ADC概述 4、实验流程 4.0、前提知识 4.1、CubeMX相关配置 4.1.1、时钟树配置 4.1.2、外设参数配置 4.1.3、外设中断配置 4.2、生成代码 4.2.1、外设初始化调用流程 4.2.2、外设中断调用流程 4.2.3、添加其他必要代码 5、常用函数…