数据分析与可视化:用 Python 处理、分析与展示数据

数据分析与可视化:用 Python 处理、分析与展示数据

在这里插入图片描述

Python 在数据分析领域有着非常强大的生态和灵活性,从数据清洗、处理,到分析、可视化,它几乎无所不能。今天,我们一起来聊聊如何用 Python 处理、分析和展示数据,并用几个实际案例让你快速上手。


一、数据分析的流程

数据分析其实是一个完整的闭环,可以分为以下几个步骤:

  1. 获取数据:从文件、数据库、API 或网络爬虫中收集数据。
  2. 数据清洗:处理缺失值、异常值,转换数据格式。
  3. 数据分析:统计、分类、聚类、相关性分析等。
  4. 数据可视化:用图表清晰地表达数据特征。
  5. 报告与决策:通过可视化和分析结果为业务提供决策支持。

二、Python 数据分析的常用工具

要用 Python 处理数据,离不开以下几个主流工具:

  • Pandas:数据处理与操作的基础工具,提供 DataFrame 结构,方便清洗和分析数据。
  • NumPy:高效的数组计算库,用于数学计算和数据处理。
  • Matplotlib 和 Seaborn:常用的可视化工具,适合绘制各种统计图表。
  • Plotly 和 Bokeh:交互式可视化工具,适合动态展示数据。
  • Scikit-learn:常用于机器学习和高级分析的库。

三、案例 1:读取与清洗数据

假设我们有一个包含产品销售数据的 CSV 文件,名为 sales_data.csv,其中包含以下字段:

  • 产品 ID(product_id
  • 销售日期(sale_date
  • 销售额(revenue
  • 城市(city

我们的目标是:

  1. 读取数据;
  2. 清洗缺失值;
  3. 格式化日期字段。
import pandas as pd

# 读取 CSV 文件
df = pd.read_csv("sales_data.csv")

# 查看数据前几行
print(df.head())

# 检查缺失值
print(df.isnull().sum())

# 填充缺失值
df['revenue'] = df['revenue'].fillna(df['revenue'].mean())

# 转换日期格式
df['sale_date'] = pd.to_datetime(df['sale_date'])

print(df.info())  # 检查数据清洗后的结果

四、案例 2:数据分析

在数据清洗后,我们想分析不同城市的销售情况以及总体趋势:

  1. 按城市统计总销售额:
# 按城市分组统计销售额
city_revenue = df.groupby('city')['revenue'].sum().reset_index()

print(city_revenue)
  1. 按月统计销售额趋势:
# 添加月份字段
df['month'] = df['sale_date'].dt.to_period('M')

# 按月份分组统计
monthly_trend = df.groupby('month')['revenue'].sum().reset_index()

print(monthly_trend)

五、案例 3:数据可视化

数据分析得出的结论如果不能清晰地展示给他人,很难为决策提供依据。接下来,我们使用 Matplotlib 和 Seaborn 绘制几种常用图表。

  1. 柱状图:城市销售额对比
import matplotlib.pyplot as plt

# 绘制柱状图
plt.bar(city_revenue['city'], city_revenue['revenue'], color='skyblue')
plt.title("城市销售额对比")
plt.xlabel("城市")
plt.ylabel("总销售额")
plt.xticks(rotation=45)
plt.show()
  1. 折线图:月度销售趋势
# 绘制折线图
plt.plot(monthly_trend['month'].astype(str), monthly_trend['revenue'], marker='o', color='green')
plt.title("月度销售额趋势")
plt.xlabel("月份")
plt.ylabel("总销售额")
plt.grid()
plt.show()
  1. 分布图:销售额分布
import seaborn as sns

# 使用 Seaborn 绘制分布图
sns.histplot(df['revenue'], kde=True, color='purple')
plt.title("销售额分布图")
plt.xlabel("销售额")
plt.ylabel("频率")
plt.show()

六、案例 4:交互式可视化

静态图表有时候不足以直观展示数据的动态关系,这时我们可以使用 Plotly 来创建交互式图表。

  1. 城市销售额饼图
import plotly.express as px

# 绘制饼图
fig = px.pie(city_revenue, names='city', values='revenue', title="城市销售额占比")
fig.show()
  1. 销售趋势动态折线图
# 动态折线图
fig = px.line(monthly_trend, x='month', y='revenue', title="月度销售趋势", markers=True)
fig.show()

七、综合案例:将分析结果存储到数据库

分析数据后,我们可能需要将结果保存到数据库供后续使用。这里用 SQLite 做示例。

  1. 连接 SQLite 数据库并存储结果:
import sqlite3

# 创建数据库连接
conn = sqlite3.connect('sales_analysis.db')

# 存储城市销售数据
city_revenue.to_sql('city_revenue', conn, if_exists='replace', index=False)

# 存储月度趋势数据
monthly_trend.to_sql('monthly_trend', conn, if_exists='replace', index=False)

conn.close()
  1. 从数据库读取数据用于后续分析:
# 读取数据库中的数据
conn = sqlite3.connect('sales_analysis.db')
data = pd.read_sql('SELECT * FROM city_revenue', conn)
print(data)
conn.close()

八、提升数据可视化与分析的效率
  • 数据清洗工具:使用 Pandas 的 apply 方法批量处理字段,提升清洗效率;
  • 自动化分析:结合 Jupyter Notebook 和模板化代码,快速生成分析报告;
  • 更美观的可视化:试试 Seaborn 的主题设置(sns.set_theme())或 Plotly 的自定义样式;
  • 分布式处理:当数据量很大时,可以使用 Dask 或 PySpark 等工具加速分析。

九、总结

通过 Python,我们可以完成从数据获取、清洗、分析到可视化的全流程操作。掌握这些技能后,你不仅可以高效地完成业务分析,还能通过清晰的图表讲述数据背后的故事。

数据分析是实践性很强的技能,希望通过这篇文章,你能对 Python 的数据处理和可视化有更深入的理解。如果有其他问题,欢迎随时交流~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/935738.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Chrome浏览器调用ActiveX控件--allWebOffice控件

背景 allWebOffice控件能够实现在浏览器窗口中在线操作文档的应用(阅读、编辑、保存等),支持编辑文档时保留修改痕迹,支持书签位置内容动态填充,支持公文套红,支持文档保护控制等诸多办公功能,…

ESXI6.7开启SSH密码通过Xshell登录

背景 近期服务器安装了ESXI6.7,想通过SSH到终端把/var/log/下的所有日志文件下载下来 解决方案 1、esxi开启ssh登录 2、选择Troubleshooting Options 3、开启SSH 4、打开ESXi的web页面,设置开启shell 5、使用Xshell连接,方法一定要勾选Keybo…

Vue宏观理解

文章目录 1 Vue是什么2 前端运行环境和工具3 环境搭建3.1 node.js安装3.2 Vite环境安装 4 Vue项目开发4.1 Vue项目开发开发方式4.2 Vue项目结构4.3 启动Vue项目4.4 Vue开发4.4 Vue工程运行流程 1 Vue是什么 Vue是一款Web前端JavaScript 框架; 官网:http…

Redis安装和Python练习(Windows11 + Python3.X + Pycharm社区版)

环境 Windows11 Python3.X Pycharm社区版 思路 1 github下载redis压缩包 ,安装并启动redis服务,在客户端连接redis服务。 2 在pycharm中运行python程序,连接redis服务,熟悉redis的使用和巩固python语言。 3 python开发环境…

Alan Chhabra:MongoDB AI应用程序计划(MAAP) 为客户提供价值

MongoDB全球合作伙伴执行副总裁 Alan Chhabra 每当有人向我问询MongoDB,我都会说他们很可能在不觉之间已经与MongoDB有过交集。事实上,包括70%财富百强在内的许多世界领先企业公司都在使用MongoDB。我们在MongoDB所做的一切都是为了服务客户&#xff0c…

蓝桥杯历届真题 --#递推 翻硬币(C++)

文章目录 思路完整代码结语 原题链接 思路 通过观察测试用例,我们猜测,从左到右依次对比每一个位置上的状态,如果不一样我们就翻一次,最终得到的答案即为正解。 完整代码 //这里是引入了一些常用的头文件,和一些常规操作 //第一…

vs配置c++标准

在 vcxproj 文件中添加 <LanguageStandard>stdcpp17</LanguageStandard> 和在 Visual Studio 属性页面中设置 “C语言标准” 为 “ISO C17 标准 (/std:c17)” 是完全等价的。 它们的对应关系是&#xff1a; VS属性页面中的设置&#xff1a; 项目 -> 属性 ->…

机器人构建详解:售前售后服务客服机器人与广告生成机器人的微调数据处理方法

引言 大模型&#xff08;如BERT、GPT等&#xff09;在自然语言处理任务中展现了强大的能力&#xff0c;但为了使其更贴合特定应用场景&#xff0c;通常需要进行微调。本文将详细讲解如何为售前售后服务的客服机器人和广告生成机器人准备高质量的微调数据&#xff0c;并通过具体…

R学习——因子

目录 1 定义因子&#xff08;factor函数&#xff09; 2因子的作用 一个数据集中的 只需要考虑可以用哪个数据来进行分类就可以了&#xff0c;可以用来分类就可以作为因子。 Cy1这个因子对应的水平level是4 6 8&#xff1a; 1 定义因子&#xff08;factor函数&#xff09; 要…

计算机毕设-基于springboot的口腔诊所系统的设计与实现(附源码+lw+ppt+开题报告)

博主介绍&#xff1a;✌多个项目实战经验、多个大型网购商城开发经验、在某机构指导学员上千名、专注于本行业领域✌ 技术范围&#xff1a;Java实战项目、Python实战项目、微信小程序/安卓实战项目、爬虫大数据实战项目、Nodejs实战项目、PHP实战项目、.NET实战项目、Golang实战…

【ComfyUI+视频生成】LTX-Video 快速生成视频 + 图生视频 (生成4秒 3090需要20秒)

代码&#xff1a;https://github.com/Lightricks/LTX-Video comfyui官方工作流&#xff1a;https://comfyanonymous.github.io/ComfyUI_examples/ltxv/ 官方模型&#xff1a;https://huggingface.co/Lightricks/LTX-Video 工作流下载&#xff1a;https://pan.baidu.com/s/1g9Y…

axios的引入和基本使用

一、axios的引入 使用 pnpm add axios 二、使用axios 三、axios的使用方法补充 axios除了直接使用它实例上的方法&#xff0c;还可以通过配置的方式进行使用axios({})&#xff0c;传入一个对象&#xff0c;这个对象可以有如下属性&#xff1a; url&#xff08;字符串&#…

【蓝桥杯最新板】蓝桥杯嵌入式液晶上实现电子时钟

这几年蓝桥杯比赛比较适合学生技能学习&#xff0c;考虑板子功能&#xff0c;提出完成的任务。 要求在液晶完成如下图效果&#xff1a; 主要是实现液晶显示时钟和数字时钟&#xff0c;具体样式可以依据实际情况微调。 实现过程&#xff1a; 1.需要画圆&#xff08;外圆、内圆…

JavaScript 写css的内联样式

一、使用style属性-直接设置单个 CSS 属性 // 获取元素 var element document.getElementById("myElement");// 设置样式 element.style.color "red"; element.style.backgroundColor "blue"; element.style.fontSize "20px"; 二…

Linux系统操作03|chmod、vim

上文&#xff1a; Linux系统操作02|基本命令-CSDN博客 目录 六、chmod&#xff1a;给文件设置权限 1、字母法 2、数字法&#xff08;用的最多&#xff09; 七、vim&#xff1a;代码编写和文本编辑 1、启动和退出 1️⃣启动 2️⃣退出 2、vim基本操作 六、chmod&#x…

AndroidStudio配置aar包的依赖方式

创建本地仓库文件夹和aar文件夹 创建本地仓库文件夹LocalRepo&#xff0c;文件夹名称可以自定义。在LocalRepo文件夹下为每一个aar单独创建文件夹&#xff0c;如下所示。aar包就放在各自的文件夹下。请注意一个aar文件夹下只能放置一个aar。 配置build.gradle文件 在aar文件…

数据分析python小工具录入产品信息到Excel

在没有后台管理系统的时候&#xff0c;有时候为了方便起见&#xff0c;想提供一个输入框让运营人员直接输入&#xff0c;然后数据就会以数据库的形式存进数据库 效果图&#xff1a; 输入用户名 输入数据 输入信息后点击添加到表格&#xff0c;检查后方便批量保存到excel …

数据结构 (35)分配类排序

前言 分配类排序是数据结构中的一种重要排序方法&#xff0c;其核心思想是利用分配和收集过程对元素进行排序&#xff0c;而无需比较元素之间的关键字。这种方法突破了基于关键字比较的排序算法的时间下界&#xff0c;可以达到线性时间复杂度O(n)。 一、分配类排序的基本概念 分…

sftp+sshpass

实现场景&#xff0c;要求客户端定时将本地的日志文件传输到服务器。 工作环境ubuntu&#xff0c;注意不通操作系统的版本不通&#xff0c;依赖的工具的版本也有所不同 实现目标需要客户端满足安装工具&#xff1a; 1、下载安装sshpass ---安装命令&#xff1a;sudo apt-ge…

Java 环境配置 + IntelliJ IDEA 使用指南

文章目录 一、Java 程序的运行必须经过3 个步骤&#xff1a;编写、编译、运行&#xff08;1&#xff09;Java 和 JavaScript 的区别&#xff08;2&#xff09;JDK、JRE、JVM 的关系&#xff08;3&#xff09;是否需要 Maven&#xff1f; 二、软件下载2.1、JDK下载与安装 —— 是…