Pandas数据可视化详解:大案例解析(第27天)

系列文章目录

  1. Pandas数据可视化
  2. 解决不显示中文和负号问题
  3. matplotlib数据可视化
  4. seaborn数据可视化
  5. pyecharts数据可视化
  6. 优衣库数据分析案例

文章目录

  • 系列文章目录
  • 前言
    • 1. Pandas数据可视化
      • 1.1 案例解析:代码实现
    • 2. 解决不显示中文和负号问题
    • 3. matplotlib数据可视化
      • 1.1 案例解析:代码实现
    • 4. seaborn数据可视化
      • 1.1 案例解析:代码实现
    • 5. pyecharts数据可视化
      • 1.1 案例解析:代码实现
    • 6. 优衣库数据分析案例
      • 1.1 案例解析:代码实现


前言

本文主要通过大案例的方式详解了Pandas数据可视化,matplotlib数据可视化,seaborn数据可视化,pyecharts数据可视化。


提示:以下是本篇文章正文内容,下面案例可供参考

1. Pandas数据可视化

1.1 案例解析:代码实现

pandas的df和s对象绘图, 是通过内置matplotlib模块的pyplot类实现

# 导入模块
import pandas as pd
import matplotlib.pyplot as plt 
import seaborn as sns

# 可以通过图表快速高效查看出数据之间的规律,潜在一些结论
# 加载数据集
df = sns.load_dataset('anscombe', data_home='./data/seaborn-data/')
df
# 查看每份子集中x和y列的统计描述信息
df.groupby('dataset').describe()
# 获取四份子集数据
df1 = df.query('dataset=="I"')
df2 = df.query('dataset=="II"')
df3 = df.query('dataset=="III"')
df4 = df.query('dataset=="IV"')
# 查建画布
# figsize设置图表的大小, 宽高
fig = plt.figure(figsize=(16, 8))
# 设置画布的标题
fig.suptitle('Anscombe Data')
# 创建四个子图
# 2,2 -> 两行两列,四个图
# 1,2,3,4 -> 每个子图所在的位置
axes1 = fig.add_subplot(2,2,1)
axes2 = fig.add_subplot(2,2,2)
axes3 = fig.add_subplot(2,2,3)
axes4 = fig.add_subplot(2,2,4)
# 绘制图形
axes1.plot(df1['x'], df1['y'], 'o')
axes2.plot(df2['x'], df2['y'], 'o')
axes3.plot(df3['x'], df3['y'], 'o')
axes4.plot(df4['x'], df4['y'], 'o')
# 给每个子图添加标题
axes1.set_title('dataset_1')
axes2.set_title('dataset_2')
axes3.set_title('dataset_3')
axes4.set_title('dataset_4')
plt.show()

# pandas绘图
# df对象绘图
# 图形的x轴是df的行索引值
# 图形的y轴是每个数值列的值
# 当前df1有两列数值列, 绘制出两条折线
# 默认绘制折线图
df1.plot(kind='line')
plt.show()
# 柱状图
df1.plot(kind='bar')
# s对象绘图
# 图形x轴是s对象的索引值
# 图形y轴是s对象的值
df1['x'].plot()

2. 解决不显示中文和负号问题

  • 将 simhei.ttf 字体文件放到 /export/server/anaconda3/lib/python3.8/site-packages/matplotlib/mpl-data/fonts/ttf 目录下

    在这里插入图片描述

    在这里插入图片描述

    • 如何查看matplotlibrc文件所在位置

    • ttf目录是在 mpl-data/fonts

      import matplotlib
      matplotlib.matplotlib_fname()
      

      !在这里插入图片描述

  • 在 matplotlibrc 文件中增加以下内容

    font.family			 : sans-serif
    font.sans-serif		 : SimHei
    axes.unicode_minus   : False
    

    在这里插入图片描述

  • 删除缓存文件

    cd /root/.cache
    rm -rf matplotlib
    
  • 重启jupyter notebook

3. matplotlib数据可视化

1.1 案例解析:代码实现

# 绘制折线图, 默认图表 -> 两个变量之间的关系
# 不指定x轴和y轴值, x轴是使用行索引值, y中是数值列值
# df1.plot()
# df1.plot.line()
# df1.plot(kind='line')
# 指定图表的x轴值和y轴值
df1.plot(x='x', y='y')
plt.show()

# 绘制柱状图  展示不同类别的信息情况
df1.plot.bar()
# 绘制堆积柱状图
df1.plot(kind='bar', stacked=True)
df1.plot.bar(x='x',y='y')
plt.show()

# 水平条形图 -> 柱状图进行旋转
df1.plot.barh()
# 水平堆积条形图
df1.plot.barh(stacked=True, figsize=(16, 8), grid=True)
plt.show()

# 绘制饼图 -> 查看不同类型的占比情况
# autopct:添加百分比标签
# radius:圆直径大小,最大1
df1.plot.pie(y='y', autopct='%.2f%%', radius=0.9, figsize=(16,8))
plt.show()

# 散点图 -> 查看数据分布情况
# grid:添加网格线
df1.plot(kind='scatter',x='x',y='y', grid=True)
plt.show()

# 气泡图 -> 通过散点图api绘制
# 在散点图二维平面上再通过点的大小增加第三个维度
# s:点的大小, 第三个维度
df1.plot.scatter(x='x', y='y', grid=True, s=df1['x']*100)

# 面积图 
# 面积堆积图
df1.plot.area()
df1.plot.area(stacked=False)

# 箱线图 -> 查看数据的最小值,最大值, 1/4分位值, 中位值, 3/4分位值, 离群值(异常值) 
# 异常值, 数据值普遍分布在 1~100, 有几个值为 1w, 2w, 这些值就是离群值
df1.boxplot()

# 直方图 -> 统计不同组数据出现的次数, y轴次数
# bins=10:默认分成10组
df1.plot.hist()
plt.show()
df1['x'].plot.hist()
plt.show()

# 蜂巢图 ->了解
# gridsize=12设定蜂箱格子的大小,数字越小格子越大
df1.plot.hexbin(x='x', y='y', gridsize=12)
plt.show()

data = pd.read_csv('data/LJdata.csv')
data.head()
# 不同朝向的房源数量柱状图
temp_s = data.groupby(by='朝向')['区域'].count()
temp_s
temp_s.plot.bar(figsize=(16,8))

# 前五朝向房源数量的饼图
sort_s = temp_s.sort_values(ascending=False).head()
sort_s.plot.pie(autopct='%.2f%%', radius=0.9, figsize=(12,6))
plt.show()

4. seaborn数据可视化

1.1 案例解析:代码实现

# 加载数据
tips_df = sns.load_dataset('tips', data_home='./data/seaborn-data')
tips_df

# 散点图
fig = plt.figure(figsize=(16,8))
sns.scatterplot(data=tips_df, x='total_bill', y='tip', hue='sex', style='smoker', size='size')
plt.show()

# 关系散点图
sns.relplot(data=tips_df, x='total_bill', y='tip') # 默认 kind='scatter'
sns.relplot(data=tips_df, x='total_bill', y='tip', kind='line')
plt.show()

# 分类散点图
sns.stripplot(data=tips_df, x='time', y='total_bill')
# 不同日期用餐时间的分类散点图
sns.stripplot(data=tips_df, x='time', y='total_bill', jitter=True, dodge=True, hue='day')

# 在同一个代码块中绘制多个图形, 借助matplotlib包
f = plt.figure()
axes1 = f.add_subplot(2,1,1)
axes2 = f.add_subplot(2,1,2)
# 按照x属性所对应的类别分别展示y属性的值,适用于分类数据
# 不同饭点的账单总金额的散点图
sns.stripplot(data=tips_df, x='time', y='total_bill', ax=axes1)
# hue通用参数按颜色划分
# jitter=True 当数据点重合较多时,尽量分散的展示数据点
# dodge=True 拆分分类
sns.stripplot(data=tips_df, x='time', y='total_bill', jitter=True, dodge=True, hue='day', ax=axes2)
plt.show()

# 小提琴图
# 下图分别描述午餐账单、晚餐账单的最大值、最小值、三个四分位数,以及所有账单金额出现的次数(频率)
sns.violinplot(data=tips_df, x='time', y='total_bill')
plt.show()

# 箱线图 下图分别描述午餐账单、晚餐账单的最大值、最小值、三个四分位数,以及所有账单金额出现的次数(频率)
sns.boxplot(data=tips_df, x='time', y='total_bill', hue='day')
plt.show()

# 分类柱状图
# 下图中黑色的粗线条展示了数据的分布(误差线), 线条越短, 数据分布越均匀
# 下图中每个柱的顶点就是该分类y指定列的平均值 estimator
sns.barplot(data=tips_df, x='day', y='total_bill', estimator=max)
plt.show()

# 分类计数图
# 按x指定的列值分组统计出现次数
# y轴就是出现的次数
sns.countplot(data=tips_df, x='time')
plt.show()

# 矩阵热力图 -> 对df数据样式有要求, 通过透视表转换
# 男女在午餐晚餐的平均消费
new_df = tips_df.pivot_table(index='sex', columns='time', values='total_bill', aggfunc='mean')
print(new_df)
# 输出为热力图:男性在晚餐花费最多
sns.heatmap(data=new_df)
plt.show()

# 成对关系图
sns.pairplot(tips_df)
#sns.pairplot(df) # 全部数值列进行两两组合
#sns.pairplot(df, vars=['列名1', '列名2']) # 指定要组合展示的列名
plt.show()
# 自行调整成对关系图的绘图图形
pair_grid = sns.PairGrid(tips_df)
# 中间轴线上的图设为kdeplot
pair_grid.map_diag(sns.kdeplot) 
# 右上设为lineplot
pair_grid.map_upper(sns.lineplot) 
# 左下设为scatterplot
pair_grid.map_lower(sns.scatterplot) 
plt.show()

5. pyecharts数据可视化

1.1 案例解析:代码实现

# 可以绘制酷炫的图形
# 绘图套路 -> 参考官方示例代码进行修改即可

# 绘制2019年不同国家GDP值的词云图
# 准备要绘制词云图的数据 -> [(国家1, gdp值), (国家2, gdp值), ...]
data = pd.read_csv('data/1960-2019全球GDP数据.csv', encoding='gbk')
data
# 获取year列为2019的数据子集
data_2019= data.query('year==2019')
data_2019
# 通过zip函数将不同列表对应位置的值保存到元组中
a = [1,2,3]
b = [4,5,6]
list(zip(a, b))
data2 = list(zip(data_2019['country'], data_2019['GDP']))
data2

from pyecharts import options as opts  # 配置选项
from pyecharts.charts import WordCloud  # 词云图
c = (
    WordCloud()
    # 添加数据
    .add(series_name="不同国家GDP", data_pair=data2, word_size_range=[6, 66])
    # 设置全局配置
    .set_global_opts(
        title_opts=opts.TitleOpts(
            title="不同国家GDP的词云图", title_textstyle_opts=opts.TextStyleOpts(font_size=10)
        ),
        tooltip_opts=opts.TooltipOpts(is_show=True)
    )
    # 将html格式的文件保存到指定为止
#     .render("basic_wordcloud.html")  
)
c.render_notebook()

6. 优衣库数据分析案例

1.1 案例解析:代码实现

# 导入模块
import pandas as pd

# 加载数据集
uniqlo = pd.read_csv('data/uniqlo.csv')
uniqlo.head()
# 查看数据集基本信息
uniqlo.info()
# 查看数值列描述统计指标
uniqlo.describe()
# 查看非数值列描述统计指标
uniqlo.describe(include='object')
# 查看销售金额小于等于0的数据
uniqlo.query('销售金额<=0')
uniqlo[uniqlo['销售金额'] >= 5000]

# 统计不同产品销售数量情况
# 统计不同产品的销售总量
# 分组聚合
uniqlo.groupby(by='产品名称')['产品数量'].sum().sort_values(ascending=False)
pd.pivot_table(data=uniqlo, index='产品名称', values='产品数量', aggfunc='sum')
# 不同产品不同城市销售数量
uniqlo.groupby(by=['产品名称', '城市'])[['产品数量']].sum()
pd.pivot_table(data=uniqlo, index='产品名称', columns='城市', values='产品数量', aggfunc='sum', margins=True)
# 不同产品不同城市以及不同销售渠道的销售数量
uniqlo.groupby(by=['产品名称', '城市', '销售渠道'])[['产品数量']].sum()
pd.pivot_table(data=uniqlo, index='产品名称', columns=['城市', '销售渠道'], values='产品数量', aggfunc='sum')

# 统计不同销售渠道情况
# 统计不同销售渠道的条目数
uniqlo['销售渠道'].value_counts()
uniqlo.groupby(by='销售渠道')['城市'].count()
uniqlo.groupby(by='销售渠道')['城市'].count().plot(kind='bar')
# 统计不同城市不同销售渠道的条目数
uniqlo.groupby(by=['城市','销售渠道'])[['产品数量']].count()
pd.pivot_table(data=uniqlo, index='城市', columns='销售渠道', values='产品数量', aggfunc='count')
# 绘制sns的分类计数图
import matplotlib.pyplot as plt
import seaborn as sns
plt.figure(figsize=(16,8))
sns.countplot(data=uniqlo,y='城市',hue='销售渠道')
plt.show()
# 统计不同城市不同销售渠道的产品总数
uniqlo.groupby(by=['城市', '销售渠道'])[['产品数量']].sum()
pd.pivot_table(data=uniqlo, index='城市', columns='销售渠道', values='产品数量', aggfunc='sum', margins=True)

# 用户消费时间分析
# 不同消费时间的条目数
uniqlo['消费时间'].value_counts()
uniqlo.groupby(by='消费时间')['城市'].count()
# 不同消费时间产品总数
uniqlo.groupby(by='消费时间')['产品数量'].sum()
# 不同城市不同消费时间的产品数量
uniqlo.groupby(by=['消费时间', '城市'])[['产品数量']].sum()
wkd_sales = pd.pivot_table(data=uniqlo,index='消费时间', columns='城市', values='产品数量', aggfunc='sum')
wkd_sales
# 获取第一行数据
wkd_sales.loc['Weekday', :]
wkd_sales.loc['Weekday']
# 统计不同城市不同消费时间日均产品数量
# 在wkd_sales基础上增加两行数据
# 获取一行数据得到s对象, s对象运算操作
wkd_sales.loc['Weekday_avg',:] = wkd_sales.loc['Weekday', :] / 5
wkd_sales.loc['Weekend_avg',:] = wkd_sales.loc['Weekend', :] / 2
wkd_sales

# 销售额和成本之间的关系
# 获取多列数据
uniqlo[['销售金额', '单件成本']]
# 计算相关性系数
uniqlo[['销售金额', '单件成本']].corr()
# 销售金额是所有销售产品数量的总金额, 单件成本是一件产品成本
# 需要先计算单件销售金额 = 销售金额 / 产品数量
# 计算相关性需要先过滤掉异常数据
uniqlo2 = uniqlo[uniqlo['销售金额']>0]
uniqlo2
# 添加新的一列 单件销售金额 
uniqlo2['单件销售金额'] = uniqlo2['销售金额'] / uniqlo2['产品数量']
uniqlo2
# 计算单件销售金额和单件成本相关系数
uniqlo2[['单件销售金额', '单件成本']].corr()
# 绘制散点图
sns.scatterplot(data=uniqlo2, x='单件成本', y='单件销售金额')
# 绘制热力图
sns.heatmap(uniqlo2[['单件销售金额', '单件成本']].corr())

所需文件已经上传:第27天

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/776657.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

HTTP代理服务器:深度解析与应用

“随着互联网的飞速发展&#xff0c;HTTP代理服务器在网络通信中扮演着越来越重要的角色。它们作为客户端和服务器之间的中介&#xff0c;不仅优化了网络性能&#xff0c;还提供了强大的安全性和隐私保护功能。” 一、HTTP代理服务器的概念与作用 HTTP代理服务器是一种能够接…

Qt扫盲-QRect矩形描述类

QRect矩形描述总结 一、概述二、常用函数1. 移动类2. 属性函数3. 判断4. 比较计算 三、渲染三、坐标 一、概述 QRect类使用整数精度在平面中定义一个矩形。在绘图的时候经常使用&#xff0c;作为一个二维的参数描述类。 一个矩形主要有两个重要属性&#xff0c;一个是坐标&am…

前端面试题16(跨域问题)

跨域问题源于浏览器的同源策略&#xff08;Same-origin policy&#xff09;&#xff0c;这一策略限制了来自不同源的“写”操作&#xff08;比如更新、删除数据等&#xff09;&#xff0c;同时也限制了读操作。当一个网页尝试请求与自身来源不同的资源时&#xff0c;浏览器会阻…

设计模式探索:代理模式

1. 什么是代理模式 定义 代理模式是一种结构型设计模式&#xff0c;通过为其他对象提供一种代理以控制对这个对象的访问。代理对象在客户端和实际对象之间起到中介作用&#xff0c;可以在不改变真实对象的情况下增强或控制对真实对象的访问。 目的 代理模式的主要目的是隐…

着急,为啥AI叫好不叫座啊?

关注卢松松&#xff0c;会经常给你分享一些我的经验和观点。 李彦宏在2024世界人工智能大会上说&#xff1a; 没有应用&#xff0c;光有基础模型&#xff0c;不管是开源还是闭源都一文不值&#xff0c;所以我从去年下半年开始讲&#xff0c;大家不要卷模型了&#xff0c;要去…

MySQL---事务管理

1.关于事务 理解和学习事务&#xff0c;不能只站在程序猿的角度来理解事务&#xff0c;而是要站在使用者&#xff08;用户&#xff09;的角度来理解事务。 比如支付宝转账&#xff0c;A转了B100块前&#xff0c;在程序猿的角度来看&#xff0c;是两条update操作&#xff0c;A …

PCDN技术如何提高内容分发效率?(贰)

PCDN技术通过以下方式提高内容分发效率: 1.利用用户设备作为分发节点:与传统的 CDN技术主要依赖中心化服务器不同&#xff0c; PCDN技术利用用户的设备作为内容分发的节点。当用户下载内容时&#xff0c;他们的设备也会成为内容分发的一部分&#xff0c;将已下载的内容传递给其…

项目部署_持续集成_Jenkins

1 今日内容介绍 1.1 什么是持续集成 持续集成&#xff08; Continuous integration &#xff0c; 简称 CI &#xff09;指的是&#xff0c;频繁地&#xff08;一天多次&#xff09;将代码集成到主干 持续集成的组成要素 一个自动构建过程&#xff0c; 从检出代码、 编译构建…

树状数组实现 查找逆序对

题意&#xff1a; 输入一个整数n。 接下来输入一行n个整数 。 1< < n ,且每个数字只会出现一次 题解&#xff1a; 按每个数字的大小存入树状数组 #include<bits/stdc.h> using namespace std; #define ll long long const int N10000; int arr[N]; ll a[N];…

Java中关于构造代码块和静态代码块的解析

构造代码块 特点&#xff1a;优先于构造方法执行,每new一次,就会执行一次 public class Person {public Person(){System.out.println("我是无参构造方法");}{System.out.println("我是构造代码块"); //构造代码块} }public class Test {public stati…

golang与以太坊交互

文章目录 golang与以太坊交互什么是go-ethereum与节点交互前的准备使用golang与以太坊区块链交互查询账户的余额使用golang生成以太坊账户使用golang生成以太坊钱包使用golang在账户之间转移eth安装使用solc和abigen生成bin和abi文件生成go文件使用golang在测试网上部署智能合约…

GD32MCU如何实现掉电数据保存?

大家在GD32 MCU应用时&#xff0c;是否会碰到以下应用需求&#xff1a;希望在MCU掉电时保存一定的数据或标志&#xff0c;用以记录一些关键的数据。 以GD32E103为例&#xff0c;数据的存储介质可以选择内部Flash或者备份数据寄存器。 如下图所示&#xff0c;片内Flash具有10年…

【综合能源】计及碳捕集电厂低碳特性及需求响应的综合能源系统多时间尺度调度模型

目录 1 主要内容 2 部分程序 3 实现效果 4 下载链接 1 主要内容 本程序是对《计及碳捕集电厂低碳特性的含风电电力系统源-荷多时间尺度调度方法》方法复现&#xff0c;非完全复现&#xff0c;只做了日前日内部分&#xff0c;并在上述基础上改进升级为电热综合电源微网系统&…

力扣习题--找不同

目录 前言 题目和解析 1、找不同 2、 思路和解析 总结 前言 本系列的所有习题均来自于力扣网站LeetBook - 力扣&#xff08;LeetCode&#xff09;全球极客挚爱的技术成长平台 题目和解析 1、找不同 给定两个字符串 s 和 t &#xff0c;它们只包含小写字母。 字符串 t…

智能光伏开发都能用到什么软件和工具?

随着全球对可再生能源的日益重视和光伏技术的快速发展&#xff0c;智能光伏开发已成为推动能源转型的重要力量。在光伏项目的全生命周期中&#xff0c;从设计、建设到运营管理&#xff0c;各种软件和工具的应用发挥着至关重要的作用。 一、光伏系统设计软件 1、PVsyst PVsyst…

Python创建MySQL数据库

一、使用Docker部署本地MySQL数据库 docker run --restartalways -p 3307:3306 --name mysql -e MYSOL_ROOT_PASSWORDlms123456 -d mysql:8.0.25 参数解析: 用户名:root 密码:lms123456 端口:3307 二、在Pycharm开发工具中配置连接MySQL数据库 三、安装zdppy_mysql pip inst…

【LabVIEW学习篇 - 2】:LabVIEW的编程特点

文章目录 LabVIEW的编程特点图形编程天然并行运行基于数据流运行 LabVIEW的编程特点 图形编程 LabVIEW使用图形化的图形化编程语言&#xff08;G语言&#xff09;&#xff0c;用户通过在程序框图中拖放和连接各种节点&#xff08;Nodes&#xff09;来编写程序。每个节点代表一…

tobias实现支付宝支付

tobias是一个为支付宝支付SDK做的Flutter插件。 如何使用 你需要在pubspec.yaml中配置url_scheme。url_scheme是一个独特的字符串&#xff0c;用来重新启动你的app&#xff0c;但是请注意字符串“_”是不合法的。 在iOS端&#xff0c;你还需要配置并传入一个universal link。…

动手学深度学习(Pytorch版)代码实践 -循环神经网络-53语言模型和数据集

53语言模型和数据集 1.自然语言统计 引入库和读取数据&#xff1a; import random import torch from d2l import torch as d2l import liliPytorch as lp import numpy as np import matplotlib.pyplot as plttokens lp.tokenize(lp.read_time_machine())一元语法&#xf…

利用Redis bitmap 实现签到案例

数据库实现 设计签到功能对应的数据库表 CREATE TABLE sign_record (id bigint NOT NULL AUTO_INCREMENT COMMENT 主键,user_id bigint NOT NULL COMMENT 用户id,year year NOT NULL COMMENT 签到年份,month tinyint NOT NULL COMMENT 签到月份,date date NOT NULL COMMENT 签…