Python数据分析:数据可视化(Matplotlib、Seaborn)

数据可视化是数据分析中不可或缺的一部分,通过将数据以图形的方式展示出来,可以更直观地理解数据的分布和趋势。在Python中,Matplotlib和Seaborn是两个非常流行和强大的数据可视化库。本文将详细介绍这两个库的使用方法,并附上一个综合详细的例子。

一、Matplotlib

Matplotlib是Python中最基础也是最强大的数据可视化库之一。它提供了一整套绘图工具,可以创建各种类型的图表,如折线图、柱状图、散点图、饼图等。

1.1 Matplotlib基础

基本使用

Matplotlib的基本使用非常简单,只需要导入matplotlib.pyplot模块,然后使用其各种绘图函数即可。

import matplotlib.pyplot as plt

# 创建数据
x = [1, 2, 3, 4, 5]
y = [2, 3, 5, 7, 11]

# 绘制折线图
plt.plot(x, y)
plt.xlabel('X轴')
plt.ylabel('Y轴')
plt.title('简单折线图')
plt.show()

设置图形属性

我们可以通过设置各种属性来定制图形的外观。

# 设置线条属性
plt.plot(x, y, color='green', marker='o', linestyle='dashed', linewidth=2, markersize=12)
plt.xlabel('X轴')
plt.ylabel('Y轴')
plt.title('设置线条属性的折线图')
plt.show()

多图绘制

使用subplot函数可以在同一个窗口中绘制多个图形。

# 创建数据
x = [1, 2, 3, 4, 5]
y1 = [2, 3, 5, 7, 11]
y2 = [1, 4, 9, 16, 25]

# 创建子图
plt.subplot(2, 1, 1)
plt.plot(x, y1, 'r--')
plt.title('第一个子图')

plt.subplot(2, 1, 2)
plt.plot(x, y2, 'g*-')
plt.title('第二个子图')

plt.show()

1.2 Matplotlib高级

图例和标签

我们可以为图形添加图例和标签,以便更好地解释图表内容。

# 创建数据
x = [1, 2, 3, 4, 5]
y1 = [2, 3, 5, 7, 11]
y2 = [1, 4, 9, 16, 25]

# 绘制折线图
plt.plot(x, y1, label='质数')
plt.plot(x, y2, label='平方数')

# 添加图例和标签
plt.xlabel('X轴')
plt.ylabel('Y轴')
plt.title('添加图例和标签的折线图')
plt.legend()
plt.show()

注释和文本

可以在图表中添加注释和文本,以便更详细地解释图表中的数据点。

# 创建数据
x = [1, 2, 3, 4, 5]
y = [2, 3, 5, 7, 11]

# 绘制折线图
plt.plot(x, y)
plt.xlabel('X轴')
plt.ylabel('Y轴')
plt.title('添加注释的折线图')

# 添加注释
plt.annotate('最高点', xy=(5, 11), xytext=(4, 9),
             arrowprops=dict(facecolor='black', shrink=0.05))

plt.show()

图表样式

Matplotlib提供了许多内置的样式,可以轻松更改图表的整体外观。

# 使用内置样式
plt.style.use('ggplot')

# 创建数据
x = [1, 2, 3, 4, 5]
y = [2, 3, 5, 7, 11]

# 绘制折线图
plt.plot(x, y)
plt.xlabel('X轴')
plt.ylabel('Y轴')
plt.title('使用ggplot样式的折线图')
plt.show()

二、Seaborn

Seaborn是基于Matplotlib构建的高级数据可视化库,提供了更简洁的API和更美观的默认样式,特别适合用于统计数据的可视化。

2.1 Seaborn基础

安装和导入

安装Seaborn非常简单,可以使用pip命令:

pip install seaborn

导入Seaborn也非常简单:

import seaborn as sns
import matplotlib.pyplot as plt

基本使用

Seaborn的基本使用方法与Matplotlib类似,但提供了更简洁的接口和更美观的默认样式。

# 导入数据集
tips = sns.load_dataset('tips')

# 绘制散点图
sns.scatterplot(x='total_bill', y='tip', data=tips)
plt.xlabel('总账单')
plt.ylabel('小费')
plt.title('总账单与小费的关系')
plt.show()

绘制不同类型的图表

Seaborn提供了许多用于绘制不同类型图表的函数,如箱线图、柱状图、热力图等。

# 箱线图
sns.boxplot(x='day', y='total_bill', data=tips)
plt.xlabel('星期几')
plt.ylabel('总账单')
plt.title('不同星期几的总账单分布')
plt.show()

# 热力图
flights = sns.load_dataset('flights')
flights_pivot = flights.pivot('month', 'year', 'passengers')
sns.heatmap(flights_pivot, annot=True, fmt='d', cmap='YlGnBu')
plt.xlabel('年份')
plt.ylabel('月份')
plt.title('不同年份和月份的乘客数量')
plt.show()

2.2 Seaborn高级

调整图表样式

Seaborn提供了一些函数可以调整图表的样式。

# 设置图表样式
sns.set_style('whitegrid')

# 绘制散点图
sns.scatterplot(x='total_bill', y='tip', data=tips)
plt.xlabel('总账单')
plt.ylabel('小费')
plt.title('总账单与小费的关系')
plt.show()

多图绘制

使用FacetGrid可以在同一个窗口中绘制多个图形,方便进行对比分析。

# 使用FacetGrid绘制多个图形
g = sns.FacetGrid(tips, col='time')
g.map(sns.scatterplot, 'total_bill', 'tip')
plt.show()

三、综合实例

下面是一个综合详细的例子,展示如何使用Matplotlib和Seaborn进行数据可视化。

3.1 示例数据集

我们将使用一个模拟的数据集,包含一些产品的销售数据。

import pandas as pd
import numpy as np

# 创建数据集
np.random.seed(0)
dates = pd.date_range('20230101', periods=100)
df = pd.DataFrame({
    'date': dates,
    'product': np.random.choice(['A', 'B', 'C', 'D'], size=100),
    'sales': np.random.randint(50, 200, size=100),
    'profit': np.random.randint(20, 100, size=100)
})

3.2 使用Matplotlib进行数据可视化

销售趋势折线图

我们首先使用Matplotlib绘制产品销售趋势的折线图。

import matplotlib.pyplot as plt

# 按日期汇总销售数据
sales_trend = df.groupby('date')['sales'].sum()

# 绘制折线图
plt.figure(figsize=(10, 6))
plt.plot(sales_trend.index, sales_trend.values)
plt.xlabel('日期')
plt.ylabel('销售额')
plt.title('销售趋势折线图')
plt.show()

各产品销售额柱状图

接下来,我们绘制各产品销售额的柱状图。

# 按产品汇总销售数据
product_sales = df.groupby('product')['sales'].sum()

# 绘制柱状图
plt.figure(figsize=(8, 6))
plt.bar(product_sales.index, product_sales.values, color=['red', 'blue', 'green', 'purple'])
plt.xlabel('产品')
plt.ylabel('销售额')
plt.title('各产品销售额柱状图')
plt.show()

3.3 使用Seaborn进行数据可视化

销售和利润的散点图

我们使用Seaborn绘制销售和利润的散点图。

import seaborn as sns

# 绘制散点图
plt.figure(figsize=(10, 6))
sns.scatterplot(x='sales', y='profit', hue='product', data=df)
plt.xlabel('销售额')
plt.ylabel('利润')
plt.title('销售额与利润的关系')
plt.show()

产品销售分布箱线图

我们使用Seaborn绘制各产品销售分布的箱线图。

# 绘制箱线图
plt.figure(figsize=(10, 6))
sns.boxplot(x='product', y='sales', data=df)
plt.xlabel('产品')
plt.ylabel('销售额')
plt.title('各产品销售分布箱线图')
plt.show()

3.4 综合实例的输出结果

通过运行上述代码,我们可以得到一系列图表,这些图表直观地展示了销售数据的分布和趋势。

  1. 销售趋势折线图:展示了整个时间段内的销售趋势,帮助我们识别出销售高峰和低谷。
  2. 各产品销售额柱状图:展示了不同产品的销售额对比,帮助我们确定哪些产品最受欢迎。
  3. 销售额与利润的散点图:展示了销售额和利润之间的关系,帮助我们分析销售和利润的相关性。
  4. 各产品销售分布箱线图:展示了不同产品的销售分布情况,帮助我们识别出销售额的集中区域和异常值。

通过这些图表,我们可以更好地理解和解释数据,从而做出更明智的决策。

四、总结

本文详细介绍了Python中两个主要的数据可视化库——Matplotlib和Seaborn的使用方法,并通过一个综合实例展示了如何使用这两个库进行数据可视化。Matplotlib提供了强大的绘图功能和高度的定制性,而Seaborn则提供了更简洁的接口和更美观的默认样式。根据不同的需求,我们可以选择合适的库进行数据可视化,从而更好地理解和解释数据。

作者:Rjdeng
链接:https://juejin.cn/post/7399985797540069386

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/871554.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

OceanMind海睿思入选《2024中国企业数智化转型升级服务全景图/产业图谱》

近日,国内知名数据智能产业创新服务媒体数据猿携手上海大数据联盟发布了《2024中国企业数智化转型升级服务全景图/产业图谱1.0版》。中新赛克海睿思从数千家企业中脱颖而出,成功入选「底层技术服务 - 大数据」细分领域。 在历经数月的时间里,…

实现Bezier样条曲线

1.给出n1 个控制点pk(xk,yk,zk),这里k可取值0-n,多项式函数公式如下 获取的单个点的代码 void zmBezier::getPoint(float u, double p[3]) {int n m_count - 1;double x 0, y 0, z 0;for(int k 0; k < n; k){x m_ctrlPoints[k][0] * BEZ_k_n(n, k, u);y m_ctrlPoin…

《机器学习》—— 使用过采样方法实现逻辑回归分类问题

文章目录 一、什么是过采样方法&#xff1f;二、使用过采样方法实现逻辑回归分类问题三、过采样的优缺点 本篇内容是 基于Python的scikit-learn库中sklearn.linear_model 类中的 LogisticRegression&#xff08;&#xff09;逻辑回归方法实现的&#xff0c;其内容中只是在处理…

创建、使用、删除 数据库

一、创建数据库 1.1 使用DDL语句创建数据库 CREATE DATABASE 数据库名 CHARACTER SET 字符编码 COLLATE 排序规则; 如果不指定数据库编码&#xff0c;默认是utf8&#xff1b; 如果不指定排序规则&#xff0c;默认是utf8_general_ci&#xff0c;即不区分大小写&#xff0c;区分…

我“开发“了一款大模型应用,AI门槛这么低了吗?

现在国产大模型多如牛毛。虽然可选的大模型产品很多&#xff0c;但普遍存在同质化、高分低能、实用性差、专业性不足的问题&#xff0c;哪怕是诸如ChatGPT、Gemini这样全球顶尖的大模型也会存在这种情况。 还有一点比较重要的是&#xff0c;由于大模型需要算力、算法、数据的基…

vue+ckEditor5 复制粘贴wold文字+图片并保存格式

第一步在vue2项目下安装 npm install --save ckeditor/ckeditor5-build-decoupled-document 第二 项目下新建一个plugins的文件夹将这个包ckeditor5-build-classic放入 &#xff08;包在页面最上方 有个下载按钮 可以下载&#xff09; 刚开始时 ckeditor5-build-classic文件…

「字符串」前缀函数|KMP匹配:规范化next数组 / LeetCode 28(C++)

目录 概述 思路 核心概念&#xff1a;前缀函数 1.前缀函数 2.next数组 1.考研版本 2.竞赛版本 算法过程 构建next数组 匹配过程 复杂度 Code 概述 为什么大家总觉得KMP难&#xff1f;难的根本就不是这个算法本身。 在互联网上你可以见到八十种KMP算法的next数组…

SQL 布尔盲注 (injection 第六关)

简介 SQL注入&#xff08;SQL Injection&#xff09;是一种常见的网络攻击方式&#xff0c;通过向SQL查询中插入恶意的SQL代码&#xff0c;攻击者可以操控数据库&#xff0c;SQL注入是一种代码注入攻击&#xff0c;其中攻击者将恶意的SQL代码插入到应用程序的输入字段中&am…

26.删除有序数组中的重复项---力扣

题目链接&#xff1a; . - 力扣&#xff08;LeetCode&#xff09;. - 备战技术面试&#xff1f;力扣提供海量技术面试资源&#xff0c;帮助你高效提升编程技能,轻松拿下世界 IT 名企 Dream Offer。https://leetcode.cn/problems/remove-duplicates-from-sorted-array/descript…

嵌入式学习——(Linux高级编程——线程)

线程 一、pthread 线程概述 pthread&#xff08;POSIX threads&#xff09;是一种用于在程序中实现多线程的编程接口。它与进程一样&#xff0c;可以用于实现并发执行任务&#xff0c;但与进程相比有一些不同的特点。 二、优点 1. 比多进程节省资源&#xff1a;进程在创建时…

PDPS软件 那智机器人 (丰田版)离线程序导出处理

在PDPS仿真软件中导出的那智机器人离线程序&#xff0c;一般是无法直接给TFD控制装置-那智机器人&#xff08;丰田式样版&#xff09;导入及识别使用。因此要对导出的程序进行转换编译处理&#xff0c;才能给TFD那智机器人&#xff08;丰田式样版&#xff09;导入离线程序。以下…

HarmonyOS 开发

环境 下载IDE 代码 import { hilog } from kit.PerformanceAnalysisKit; import testNapi from libentry.so; import { router } from kit.ArkUI; import { common, Want } from kit.AbilityKit;Entry Component struct Index {State message: string Hello HarmonyOS!;p…

类与对象(中(2))

开头 大家好啊&#xff0c;上一期内容我们介绍了类与对象中六大默认成员函数中的两种--->构造函数与析构函数&#xff0c;相信大家多少都形成了自己的独到见解。那么今天&#xff0c;我将继续就拷贝构造函数与运算符重载函数来展开讲解&#xff0c;话不多说&#xff0c;我们…

Python版《超级玛丽+源码》-Python制作超级玛丽游戏

小时候最喜欢玩的小游戏就是超级玛丽了&#xff0c;有刺激有又技巧&#xff0c;通关真的很难&#xff0c;救下小公主还被抓走了&#xff0c;唉&#xff0c;心累&#xff0c;最后还是硬着头皮继续闯&#xff0c;终于要通关了&#xff0c;之后再玩还是没有那么容易&#xff0c;哈…

十五年以来 — 战略性云平台服务的演进路径之全面呈现(含亚马逊、微软和谷歌)

Gartner每年都发布对全球IaaS平台进行评估的魔力象限报告。2023年底&#xff0c;Gartner将此项评估的名称改为“战略性云平台服务”&#xff08;Strategic cloud platform services&#xff09;&#xff0c;尽管其核心仍为IaaS&#xff0c;但是&#xff0c;毫无疑问&#xff0c…

手机云电脑游戏测评:ToDesk、易腾云、达龙云、青椒云四款对比分析

文章目录 &#x1f4d1; 引言一、背景概述测试目标 二、测试方案与评测标准2.1 测试设备2.2 评测标准 三、云电脑移动端实测3.1 ToDesk云电脑3.1.1 安装步骤与用户界面3.1.2 性能测试3.1.3 多场景适用性与兼容性3.1.4 性价比 3.2 易腾云电脑3.2.1 安装流程与用户界面3.2.2 帧率…

WebRTC为何成为视频开发领域的首选技术? EasyCVR视频转码助力无缝视频通信

随着互联网的飞速发展&#xff0c;视频通信已成为日常生活和工作中不可或缺的一部分。从在线教育、视频会议到远程医疗、在线直播&#xff0c;视频开发的需求日益增长。在这些应用场景中&#xff0c;选择何种技术来构建视频系统至关重要。 目前&#xff0c;在很多视频业务的开…

Golang | Leetcode Golang题解之第352题将数据流变为多个不相交区间

题目&#xff1a; 题解&#xff1a; type SummaryRanges struct {*redblacktree.Tree }func Constructor() SummaryRanges {return SummaryRanges{redblacktree.NewWithIntComparator()} }func (ranges *SummaryRanges) AddNum(val int) {// 找到 l0 最大的且满足 l0 < val…

Browserless 网页抓取:Playwright 中的 NodeJS

什么是 Playwright&#xff1f; Playwright 是一个用于 Web 测试和自动化的开源框架。基于 Node.js&#xff0c;由 Microsoft 开发&#xff0c;它通过单一 API 支持 Chromium、Firefox 和 WebKit。它可以在 Windows、Linux 和 macOS 上运行&#xff0c;并且兼容 TypeScript、J…