三前奏:获取/ 读取/ 评估数据【数据分析】

各位大佬好 ,这里是阿川的博客 , 祝您变得更强

在这里插入图片描述 个人主页:在线OJ的阿川

大佬的支持和鼓励,将是我成长路上最大的动力 在这里插入图片描述

阿川水平有限,如有错误,欢迎大佬指正 在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

前面的博客
数据分析—技术栈和开发环境搭建
数据分析—Numpy和Pandas库基本用法及实例
Python初阶
Python–语言基础与由来介绍
Python–注意事项
Python–语句与众所周知
相信看完,您会有所了解

这是个目录

  • 数据分析流程
  • 详细化
    • 获取数据
    • 数据格式
  • 评估数据
    • 数据错误类型
    • 如何进行评估

数据分析流程

流程:

  1. 获取数据
  2. 读取数据
  3. 评估数据
  4. 清洗数据
  5. 整理数据
  6. 分析数据
  7. 可视化数据

详细化

获取数据

常见两种方式

  • 公开数据集平台
    • 飞桨
    • 天池
    • 和鲸社区
  • 自己获取
    • 公开API
    • 爬虫
      请添加图片描述

数据格式

让人喜欢的数据格式

  • json编程人员喜欢的格式)
    • 对象

    • 数组

      • 对象和数组中的数据,通过解析加转换可以变成Python数据

      • 读取json格式文件实例(read_json):

      请添加图片描述

  • scv分析师喜欢的格式)
    • 体积小
    • 结构工整
    • 容易让人理解
  • 读取csv格式文件实例csv
    • 实例目录
      • read_csv 读取csv格式文件
      • index_col 指定标签索引
      • header 指定列标签
      • set_option 展示更多想要的内容
      • info 展示概况信息
      • describe 展示统计学信息

请添加图片描述
请添加图片描述
请添加图片描述
请添加图片描述

评估数据

数据错误类型

数据错误主要分为

  • 结构类

    • 乱数据
    • 整洁数据
      • 每列一个变量
      • 每行一个观察值
      • 每个单元格是个一个值
        请添加图片描述
  • 内容类

    • 脏数据
      • 丢失数据
      • 重复数据
      • 不一致数据
      • 无效/错误数据
    • 干净数据

如何进行评估

针对结构类

  • .head 看前几行
  • .tail 看后几行
  • .sample 随机几行
    请添加图片描述
  • 针对内容类
  1. 评估缺失值

    • info 可查看一些概况

    • isnull 查看缺失值

      • 搭配sum 可得缺失值的个数

      请添加图片描述

  2. 评估重复值

  • duplicated 一个值第1次出现为false,第2次出现为true
    • 参数subset 指定列条件
      请添加图片描述
  1. 评估不一致数据
    value_counts 查看类型
    请添加图片描述

  2. 评估无效/错误数据

    • 用两种方法来尝试

      • sort_values 看是否有值明显错误的数据
      • descripbe 看是否有值明显错误的数据

请添加图片描述

好的,到此为止啦,祝您变得更强

在这里插入图片描述

道阻且长 行则将至

个人主页:在线OJ的阿川大佬的支持和鼓励,将是我成长路上最大的动力 在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/642117.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

NASA数据——AIRS 颗粒地图产品包括 PDF 和 JPG 格式的颗粒覆盖图像

AIRS/Aqua Granule map product V005 (AIRXAMAP) at GES DISC 美国国家航空航天局 Aqua 卫星上的大气红外探测器 AIRS是美国宇航局Aqua卫星上的大气红外探测器,每天在全球范围内收集地球表面和大气层发射的红外能量。其数据提供了大气柱中温度和水蒸气的三维测量值…

服务器数据恢复—RAID5阵列崩溃如何恢复上层OA和oracle数据库的数据?

服务器数据恢复环境&故障: 某公司的一台服务器中的raid5磁盘阵列有两块磁盘先后掉线,服务器崩溃。故障服务器的操作系统为linux,操作系统部署了oa,数据库为oracle。oracle数据库已经不再对该oa系统提供后续支持,用…

解决移植Metasploitable3到VM虚拟机无网络的问题

第一步 导入后不要开机,先在虚拟机设置里面将原有的两个网络适配器移除。 第二步 接着在选项里面,在客户机操作系统里面,选择Microsoft Windwos(W), 版本选择Windows Server 2008 R2 x64 第三步 先打开虚拟机,然后…

2024-05学习笔记

最近的学习大多都是和mysql的索引相关的 1.mvcc mvcc是不需要手动配置,是mysql的一个机制 在事务开启时,对涉及到的数据加一个隐藏列,隐藏列对应的值,就是事务id 如果当前是修改操作,就copy一份原来的数据到新的一行…

网络安全架构之零信任安全

网络安全架构之零信任安全 文章目录 网络安全架构之零信任安全零信任安全时代背景安全世界“新旧时代”各种攻击风险层出不穷网络安全边界逐渐瓦解内外部威胁愈演愈烈 零信任架构零信任的理念在不可信的网络环境下重建信任构建自适应内生安全机制以身份为基石业务安全访问持续信…

躺赚零撸项目,看广告赚红包,零门槛提现,秒到账,单机每日100+

这个项目是跟广告商直接对接的,跟以前小游戏看广告差不多,看完广告得金币5000个兑换5毛钱。 不过这个是可以直接提现,而是无门槛就可以提,有设备就可以操作,有空边看连续剧边刷也是挺香的,单机可以达到100…

今日好料推荐(AI工业革命 + 产业级数据治理白皮书)

参考资料在文末获取,关注我,获取优质资源。 《ChatGPT:AI工业革命》 《ChatGPT:AI工业革命》是一本深入探讨人工智能技术,尤其是ChatGPT及其背后的GPT-4架构在各个领域中应用的书籍。这本书不仅详细介绍了ChatGPT的发…

[DDR5 Jedec] 2-1 引脚与PCB布线规范

7500字,依公知及经验整理,原创保护,禁止转载。 专栏 《深入理解DDR》 1 DDR5 颗粒 X4 X8 X16 这里的 X8 or X16, 可以理解为一个DRAM芯片有几个存储阵列。“X几”。进行列寻址时会同时从几个阵列的同一个坐标位置读出数据bit来&a…

三、自定义信号和槽函数(无参和有参)

需求: 下班后,小明说请小红吃好吃的,随便吃,吃啥买啥 无参:小红没有提出吃啥 有参:小红提出自己想吃的东西,吃啥取决于一时兴起(emit触发) 思路: 1&#xff…

【传知代码】用二维图像渲染3D场景视频-论文复现

文章目录 概述原理介绍模型介绍环境配置/部署方式安装环境准备数据训练(train)评估(eval)渲染(render) 小结 论文地址 本文涉及的源码可从用二维图像渲染3D场景视频该文章下方附件获取 概述 **NeRF&#…

学习使用博客记录生活

学习使用博客记录生活 新的改变 今天新的开始,让我用图片开始记录吧 看这个背景图片怎么样

【OpenCV】图像通道合并与分离,ROI

介绍可以实现图像通道合并与分离的API,这只是一种方式,后续还会介绍其他的合并与分离方法,以及ROI区域截取的方法。相关API: split() merge() Mat对象() 代码: #include "iostream" #include "ope…

JS(ES_6)_2

1.创建对象的6种方式&#xff1a; 1. obnew Object() ob.nameah ob.age18 2. ob{name:ah,gae:18} 3.工厂模式&#xff1a; 设计一个函数&#xff0c;专门生产Person类型的对象 <script>function createPerson(name,age,family) {var o new Object();o.name name;o.…

ACL组网实验(华为)

思科设备参考&#xff1a;ACL组网实验&#xff08;思科&#xff09; 更多内容参考&#xff1a;华为ACL配置&#xff08;基本ACL高级ACL综合应用&#xff09; 技术简介 ACL&#xff08;Access Control List&#xff09;技术是一种基于包过滤的流控制技术&#xff0c;主要用于…

深入解析编程逻辑中的关键字与逻辑运算

新书上架~&#x1f447;全国包邮奥~ python实用小工具开发教程http://pythontoolsteach.com/3 欢迎关注我&#x1f446;&#xff0c;收藏下次不迷路┗|&#xff40;O′|┛ 嗷~~ 目录 一、认识关键字及其重要性 二、逻辑运算的关键字 1. and、or 和 not 的运用 2. 逻辑运算的…

Redis机制-Redis缓存穿透,击穿,雪崩理解等问题的理解和学习

目录 一 缓存穿透问题 二 缓存击穿问题 三 缓存雪崩问题&#xff1a; 图1 正常的Redis缓存流程 一 缓存穿透问题 我们都知道Redis是一个存储键值对的非关系型数据库&#xff0c;那么当用户进行查询的时候&#xff0c;势必会从前端发起请求&#xff0c;从而数据从Redis缓存…

测试驱动编程(3)进阶单元测试(下)

文章目录 测试驱动编程(3)进阶单元测试&#xff08;下&#xff09;示例实战接收同事的需求开始迭代需求故事迭代1故事迭代2故事迭代3故事迭代4故事迭代5故事迭代6 测试驱动编程(3)进阶单元测试&#xff08;下&#xff09; 示例实战 接收同事的需求 你的同事正在开发一个远程…

速看!!!24上软考-信息系统项目管理师真题回忆,考点已更新

整理了24上半年软考高级信息系统项目管理师的考试真题&#xff0c;软考一个批次一套题&#xff0c;现在都是机考&#xff0c;收集题目比较困难&#xff0c;希望能给个小小的赞支持一下。 注意&#xff1a;当天考试的宝子们可以对答案预估分数&#xff01;后面场次的宝子可以提…

香农信息量/自信息、信息熵、相对熵/KL散度/信息散度、交叉熵

诸神缄默不语-个人CSDN博文目录 文章目录 1. 引言2. 什么是熵&#xff1f;3. 香农信息量/自信息香农信息量的定义香农信息量的含义香农信息量计算示例香农信息量与信息熵的关系 4. 信息熵信息熵的定义信息熵的计算公式信息熵计算示例 5. 衡量两个分布间的差异&#xff1a;相对熵…

ColossalAI Open-Sora 1.1 项目技术报告 (视频生成)

项目信息 项目地址&#xff1a;https://github.com/hpcaitech/Open-Sora技术报告&#xff1a; Open-Sora 1&#xff1a;https://github.com/hpcaitech/Open-Sora/blob/main/docs/report_01.mdOpen-Sora 1.1&#xff1a;https://github.com/hpcaitech/Open-Sora/blob/main/docs…