数据分析-Pandas数据探查初步:离散点图

数据分析-Pandas数据探查初步:离散点图

数据分析和处理中,难免会遇到各种数据,那么数据呈现怎样的规律呢?不管金融数据,风控数据,营销数据等等,莫不如此。如何通过图示展示数据的规律?

数据表,时间序列数据在数据分析建模中很常见,例如天气预报,空气状态监测,股票交易等金融场景。数据分析过程中重新调整,重塑数据表是很重要的技巧,此处选择Titanic数据,以及巴黎、伦敦欧洲城市空气质量监测 N O 2 NO_2 NO2数据作为样例。

数据分析

数据分析-Pandas如何转换产生新列

数据分析-Pandas如何统计数据概况

数据分析-Pandas如何轻松处理时间序列数据

数据分析-Pandas如何选择数据子集

数据分析-Pandas如何重塑数据表-CSDN博客

经典算法

经典算法-遗传算法的python实现

经典算法-模拟退火算法的python实现

经典算法-粒子群算法的python实现-CSDN博客

本文用到的样例数据:

Titanic数据

空气质量监测 N O 2 NO_2 NO2数据

样例代码:

源代码参考 Pandas如何重塑数据表

源代码参考 python数据分析-数据表读写到pandas

导入关键模块

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

plt.close("all")

有时候关系还不明朗,直接画线图又展示不清楚,怎么办?其实只需要知道x和y的关系,x坐标多少,y坐标多少,先画图看看多个点之间是怎样的关系——散点图。

散点图可以使用 DataFrame.plot.scatter() 方法

探究序列数据的离散规律

当使用的是序列数据时,如何把序列数据展示为点状关系呢?

该例使用随机生成数据来举例。

df = pd.DataFrame(np.random.rand(50, 4), columns=["a", "b", "c", "d"])

df["species"] = pd.Categorical(
    ["setosa"] * 20 + ["versicolor"] * 20 + ["virginica"] * 10
)


df.plot.scatter(x="a", y="b");

在这里插入图片描述

探究分组离散数据的对比

当遇到多个分组的数据,例如医学里面的常见药物效果对照,一组是服药,一组是安慰剂,想查看它们之间的关系,需要在一幅图展示,怎么办?

可以重复调用plot函数,只要指定目标的ax即可,另外,为了一目了然,也最好使用颜色 color和标签 label进行区分对比。

这样是可以一张图同时画出多列数据点的集中展示,需要比较数据:

ax = df.plot.scatter(x="a", y="b", color="DarkBlue", label="Group 1")

df.plot.scatter(x="c", y="d", color="DarkRed", label="Group 2", ax=ax);

在这里插入图片描述

用颜色探究每个离散点的数据关系

有时候,Boss突发奇想,想给每个点不同的颜色呢?如何展示?

当然可以,通过 c 参数,通过其中一列作为上色值,可以给每个点不同的颜色值。

df.plot.scatter(x="a", y="b", c="c", s=50);

在这里插入图片描述

你还可以使用分类方法指定颜色,还是用c来指定列,cmap指定调色板。

例如这里前20的值为 setosa,中间20的值为versicolor,最后10的值为virginica。

df["species"] = pd.Categorical(
    ["setosa"] * 20 + ["versicolor"] * 20 + ["virginica"] * 10
)
df.plot.scatter(x="a", y="b", c="species", cmap="viridis", s=50);

在这里插入图片描述

用点大小探究每个离散点的数据关系

有时候,Boss突发奇想,想给每个点不同的大小呢?某方面数值大的,直径就大,某方面数值小的,直径就小,该如何展示?

当然可以,不就是看气泡图么,通过 s 参数,通过其中一列作为气泡的直径,可以给每个点不同的直径值。

df.plot.scatter(x="a", y="b", c="species", cmap="viridis", s=df["c"] * 200);

在这里插入图片描述

以上代码只是一个简单示例,示例代码中的表达式可以根据实际问题进行修改。

后面介绍下其他的展示形式。

df.plot.area     df.plot.barh     df.plot.density  df.plot.hist     df.plot.line 
df.plot.bar      df.plot.box      df.plot.hexbin   df.plot.kde      df.plot.pie
df.plot.scatter

觉得有用 收藏 收藏 收藏

点个赞 点个赞 点个赞

End

GPT专栏文章:

GPT实战系列-ChatGLM3本地部署CUDA11+1080Ti+显卡24G实战方案

GPT实战系列-LangChain + ChatGLM3构建天气查询助手

大模型查询工具助手之股票免费查询接口

GPT实战系列-简单聊聊LangChain

GPT实战系列-大模型为我所用之借用ChatGLM3构建查询助手

GPT实战系列-P-Tuning本地化训练ChatGLM2等LLM模型,到底做了什么?(二)

GPT实战系列-P-Tuning本地化训练ChatGLM2等LLM模型,到底做了什么?(一)

GPT实战系列-ChatGLM2模型的微调训练参数解读

GPT实战系列-如何用自己数据微调ChatGLM2模型训练

GPT实战系列-ChatGLM2部署Ubuntu+Cuda11+显存24G实战方案

GPT实战系列-Baichuan2本地化部署实战方案

GPT实战系列-Baichuan2等大模型的计算精度与量化

GPT实战系列-GPT训练的Pretraining,SFT,Reward Modeling,RLHF

GPT实战系列-探究GPT等大模型的文本生成-CSDN博客

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/412838.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

动态IP代理技术在网络爬虫中的实际使用

目录 前言 一、什么是动态IP代理技术? 二、动态IP代理技术的实际使用 1. 获取代理IP地址 2. 在网络爬虫中设置代理 3. 周期性更换代理 结论 前言 网络爬虫是一种通过自动化程序从互联网上获取数据的技术。然而,由于某些网站对爬虫进行限制&#…

120KW OBC充电机定期检测的必要性

随着电动汽车的普及,充电设备的需求也在不断增加,其中,120KW OBC(On-Board Charger)充电机作为电动汽车的重要充电设备,其性能和安全性直接关系到电动汽车的使用体验和安全。因此,对120KW OBC充…

使用vuetify实现全局v-alert消息通知

前排提示,本文为引流文,文章内容不全,更多信息前往:oldmoon.top 查看 简介 使用强大的Vuetify开发前端页面,结果发现官方没有提供简便的全局消息通知组件(像Element中的ElMessage那样)&#xf…

C# OpenCvSharp 颜色反转

目录 效果 灰度图 黑白色反转 彩色反转 项目 代码 下载 效果 灰度图 黑白色反转 彩色反转 项目 代码 using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; using System.Drawing; using System.Linq; using System.Te…

Go Run - Go 语言中的简洁指令

原文:breadchris - 2024.02.21 也许听起来有些傻,但go run是我最喜欢的 Go 语言特性。想要运行你的代码?只需go run main.go。它是如此简单,我可以告诉母亲这个命令,她会立即理解。就像 Go 语言的大部分功能一样&…

调用 科大讯飞机器翻译API 进行中英文翻译(超详细教程)

文章目录 1. 申请讯飞机器翻译API1.1 讯飞开放平台(机器翻译)1.2 点击免费试用后进入个人控制台界面1.3 点击购买字符量(新用户首次免费200万字符)1.4 回到个人控制台界面查看获得的字符量 2.推荐一个好用的Python库 [JioNLP]2.1 …

【java】14:final 关键字

基本介绍: Final01.java final中文意思:最后的,最终的. final可以修饰类、属性、方法和局部变量. 在某些情况下,程序员可能有以下需求,就会使用到final:1当不希望类被继承时,可以用final修饰.【案例演示】 2)当不希望父类的某个方法被子类覆盖/重写(over…

什么是SSH端口转发?

目录 前言: 一、SSH端口转发的概念 二、SSH端口转发的类型 2.1 本地端口转发 2.2 远程端口转发 2.3 动态端口转发 三、SSH端口转发的用途 3.1 安全远程访问 3.2 跨越网络限制 3.3 加密流量传输 3.4 跨越 NAT 网络 3.5 安全代理 四、总结 前言&#xff…

现代信号处理学习笔记(二)参数估计理论

参数估计理论为我们提供了一套系统性的工具和方法,使我们能够从样本数据中推断总体参数,并评估估计的准确性和可靠性。这些概念在统计学和数据分析中起着关键的作用。 目录 前言 一、估计子的性能 1、无偏估计与渐近无偏估计 2、估计子的有效性 两个…

基于深度学习的故障诊断GAN之生成对抗网络

这个图是作者当时研究CGAN画的,从代码流程来看,GAN和CGAN是一样的,两者的区别在于,GAN输入噪声和原始图片,CGAN输入噪声、条件信息(标签)和原始图片,大家可以仔细研究代码&#xff0…

P0故障应对策略之:为什么P0故障难以排查

与大模型探讨P0故障 P0级故障,作为系统中最严重的故障,它们的发生往往带来灾难性的后果和巨大的损失。同时,这类故障的排查与修复也往往复杂而棘手,对整个团队的经验、综合能力、应急处置流程都是巨大的挑战。 排查P0级故障的过程…

简单实现文字滚动效果-CSS版本

先看看效果 话不多说直接上代码 <template><div class"main"><div class"scroll-region"><div class"swiper-scroll-content"><span class"list-btn" v-for"(item, index) in overviewList" :…

IDEA中 @SpringBootApplication 多个注解无法引入依赖

终于解决了&#xff01;&#xff01;&#xff01; cd到报红项目的根目录&#xff0c;然后输入mvn idea:idea就行了。

新的一年,如何优化企业库存管理?

随着社会的发展和经济的不断增长&#xff0c;库存管理成为了企业运营中非常重要的一环。库存作为企业的资产之一&#xff0c;直接影响着企业的盈利能力和竞争优势。因此&#xff0c;对企业库存进行科学的分析和管理&#xff0c;成为了确保企业持续稳定发展的必要手段之一。企业…

为什么深度学习的效果更好?

导 读 深度学习是机器学习的一个子集&#xff0c;已成为人工智能领域的一项变革性技术&#xff0c;在从计算机视觉、自然语言处理到自动驾驶汽车等广泛的应用中取得了显着的成功。 深度学习的有效性并非偶然&#xff0c;而是植根于几个基本原则和进步&#xff0c;这些原则和进…

spring框架Bean的作用域?对需要保持会话状态的bean应使用prototype作用域?为啥?

当一个bean被定义为"prototype"作用域时&#xff0c;每次请求该bean时都会创建一个新的实例&#xff0c;而不是像"singleton"作用域那样共享同一个实例。 对于需要保持会话状态的bean&#xff0c;如果使用"singleton"作用域&#xff0c;会导致所…

Dubbo知识点大全

“ 分布式应用场景有高并发,高可扩展和高性能的要求。还涉及到,序列化/反序列化,网络,多线程以及设计模式的问题。幸好 Dubbo 框架将上述知识进行了封装,让程序员能够把注意力放到业务上。 概念和架构 Provider:暴露服务的服务提供方Consumer:调用远程服务消费方Regist…

Linux系统---nginx(1)服务

目录 一.Nginx概述 1.定义 2.Nginx模块作用 &#xff08;1&#xff09;main模块 &#xff08;2&#xff09;stream服务模块 &#xff08;3&#xff09;邮件服务模块 &#xff08;4&#xff09;第三方模块 &#xff08;5&#xff09;events模块 &#xff08;6&#xff0…

智慧公厕的目的和意义是什么?

智慧公厕是近年来城市建设中的一项重要举措&#xff0c;其目的在于实现公共厕所的智慧化管理&#xff0c;为市民群众提供更好的服务体验&#xff0c;助力智慧城市和数字环卫的发展&#xff0c;提升社会公共卫生服务水平。 与此同时&#xff0c;智能公厕也具有重要的意义&#x…

泽攸科技JS系列高精度台阶仪在半导体领域的应用

泽攸科技JS系列高精度台阶仪是一款先进的自主研发的国产台阶仪&#xff0c;采用了先进的扫描探针技术。通过扫描探针在样品表面上进行微观测量&#xff0c;台阶仪能够准确获取表面形貌信息。其工作原理基于探针与样品表面的相互作用力&#xff0c;通过测量探针的微小位移&#…