本次修炼方法请往下查看
🌈 欢迎莅临我的个人主页 👈这里是我工作、学习、实践 IT领域、真诚分享 踩坑集合,智慧小天地!
🎇 免费获取相关内容文档关注:微信公众号,发送 pandas 即可获取
🎇 相关内容视频讲解 B站
🎓 博主简介:AI算法驯化师,混迹多个大厂搜索、推荐、广告、数据分析、数据挖掘岗位 个人申请专利40+,熟练掌握机器、深度学习等各类应用算法原理和项目实战经验。
🔧 技术专长: 在机器学习、搜索、广告、推荐、CV、NLP、多模态、数据分析等算法相关领域有丰富的项目实战经验。已累计为求职、科研、学习等需求提供近千次有偿|无偿定制化服务,助力多位小伙伴在学习、求职、工作上少走弯路、提高效率,近一年好评率100% 。
📝 博客风采: 积极分享关于机器学习、深度学习、数据分析、NLP、PyTorch、Python、Linux、工作、项目总结相关的实用内容。
文章目录
- 🎯 1. 基本介绍
- 💡 2. 原理介绍
- 🔍 3. 画图实践
- 3.1 数据准备
- 3.2 单维画图
- 3.3 分组画图
- 4 高阶用法
- 🔍 5. 注意事项
- 🔍 6. 总结
🎯 1. 基本介绍
箱线图(Boxplot)是一种用于展示数据分布的统计图表,它能够提供数据的最小值、第一四分位数(Q1)、中位数(Q2)、第三四分位数(Q3)和最大值的摘要信息,并且可以直观地识别出数据中的异常值。
💡 2. 原理介绍
箱线图的关键数值定义如下:
- 最小值(Minimum):数据集中的最小非异常值。
第一四分位数(Q1):数据集中25%位置的值,表示有25%的数据点小于或等于这个值。
中位数(Q2,Median):数据集中50%位置的值,将数据集分为两个相等的部分。
第三四分位数(Q3):数据集中75%位置的值,表示有75%的数据点小于或等于这个值。
最大值(Maximum):数据集中的最大非异常值。
四分位距(Interquartile Range, IQR):Q3与Q1之间的差值,表示数据集中间50%的数值范围。
🔍 3. 画图实践
3.1 数据准备
我们通过seaborn自带的数据对其进行相关的画图,具体的导入数据代码如下所示:
import seaborn as sns
import matplotlib.pyplot as plt
# 使用Seaborn内置的tips数据集
tips = sns.load_dataset("tips")
total_bill tip sex smoker day time size
0 16.99 1.01 Female No Sun Dinner 2
1 10.34 1.66 Male No Sun Dinner 3
2 21.01 3.50 Male No Sun Dinner 3
3 23.68 3.31 Male No Sun Dinner 2
4 24.59 3.61 Female No Sun Dinner 4
... ... ... ... ... ... ... ...
239 29.03 5.92 Male No Sat Dinner 3
240 27.18 2.00 Female Yes Sat Dinner 2
241 22.67 2.00 Male Yes Sat Dinner 2
242 17.82 1.75 Male No Sat Dinner 2
243 18.78 3.00 Female No Thur Dinner 2
3.2 单维画图
在画箱线图时,我们取单个维度指定方向即可,具体的代码如下所示:
ax = sns.boxplot(y=tips["total_bill"])
具体的图片如下所示:
ax = sns.boxplot(x=tips["total_bill"])
3.3 分组画图
有时候我们需要对多个维度的分布进行对比分析,这个时候需要分组画图,具体的代码如下所示:
# 分组绘制箱线图,分组因子是day,在x轴不同位置绘制
ax = sns.boxplot(x="day", y="total_bill", data=tips)
有时候我们不仅要分组,同时对每个分组内某个特征维度进行对比分析,具体的代码如下所示:
# 分组箱线图,分子因子是smoker,不同的因子用不同颜色区分
ax = sns.boxplot(x="day", y="total_bill", hue="smoker",
data=tips, palette="Set3")
4 高阶用法
有时候我们不仅需要画出数据的分布图,但是还想知道具体的数据点的分布,这个时候我们可以结合分布散点图来一起使用,具体的代码如下所示:
# 箱线图+有分布趋势的散点图
# 图形组合也就是两条绘图语句一起运行就可以了,相当于图形覆盖了
ax = sns.boxplot(x="day", y="total_bill", data=tips)
ax = sns.swarmplot(x="day", y="total_bill", data=tips, color=".25")
🔍 5. 注意事项
- 箱线图非常适合于比较不同组数据的分布情况。
- 箱线图中的异常值通常用点表示,位于箱形图外的点表示这些值。
- 箱线图的四分位距(IQR)可以提供数据分布的稳定性和离散程度的信息。
- 在绘制箱线图时,考虑数据的规模和分布特性,选择合适的轴尺度(如对数尺度)。
🔍 6. 总结
Seaborn的箱线图是一种强大的工具,用于快速理解数据的分布情况和识别异常值。通过本博客的代码示例,我们学习了如何使用Seaborn绘制箱线图,并展示了如何通过箱线图探索不同类别数据的分布特征。希望这篇博客能够帮助你更好地利用箱线图进行数据探索和分析。