python 数据分析

数据分析

数据分析是指用适当的方法对收集的数据进行分析,提取有用信息并且形成结论.

广义的数据分析包括狭义的数据分析和数据挖掘.狭义的数据分析是指根据目的,采用对比分析,分组分析,交叉分析,回归分析等分析方法,对数据进行分析和处理,得到特征统计量的过程.数据挖掘是指从大量的,不完全的,有噪声的,模糊的噪声中,通过应用聚类模型 分类模型  回归和关联规则等技术,挖掘潜在价值的过程.

数据预处理是指对数据进行数据合并、数据清洗、数据标准化、和数据变换。

数据合并是指将多张互相关的表格合并为一张。数据清洗是指去掉重复、缺失、异常的数据。数据标准化可以去除特征间的量纲差异。数据变换可以通过离散化、哑变量处理技术满足后期分析和建模的需求。

分析与建模是指通过对比分析、分组分析、交叉分析、回归分析等分析方法,以及聚类模型、分类模型、关联规则、智能推荐等模型与算法,发现数据中的有价值信息,并得出结论的过程。

模型评价。聚类模型评价指标有兰德系数、互信息。常用分类模型的评价指标有准确率、精确率、召回率、ROC和AUC。常用回归模型的评价指标有平均绝对误差、均方误差。

模型优化。模型达到性能之后,在实际的应用过程中,发现模型的性能并不理想,然后继续对模型进行重构和优化的过程。

数据分析应用

  • 客户分析。根据已有的数据来对客户进行特征分析,用以判断用户的忠诚度、喜好,使得运营策略达到最优,提升企业的整体效益
  • 社交媒体分析。通过不同社交媒体渠道生成的内容,分析客户的兴趣爱好、行为。
  • 网络安全。传统的网络安全依靠静态防御,在发现病毒威胁的时候做出反应。新型的病毒防御系统可使用数据分析技术,建立潜在攻击分析模型、检测网络活动数据和相应的访问行为。
  • 设备管理。通过物联网技术收集分析数据,包括连续用电、零部件温度、环境湿度和污染物颗粒等多种潜在特征,建立设备管理模型。
  • 交通物流分析。

Numpy数值计算基础

数组对象

数组属性

  • ndim。数组的维数
  • shape。数组的尺寸
  • size。数组元素的总数
  • dtype。数组元素类型
  • itemsize。每一个元素的大小(以字节为单位)
import numpy as np

array=np.array([1,2,3,4])
print(array.shape)
print(array.dtype)
print(array.itemsize)
print(array.size)
print(array.ndim)

numpy数组中所有元素必须都是同一类型的,这样可以更好确定数组所需要的存储空间。

生成随机数

import numpy as np

# 生成随机数
# 这里的随机数是伪随机数,随机数相关的函数都在random模块中,包括了生成多种概率分布的随机数的函数

a=np.random.random(10)
print(a)

# 生成均匀分布的随机数
b=np.random.rand(10)
print(b)
#生成正太分布
c=np.random.randn(10)
print(c)
# randint 生成给定范围的是随机数  randint(low,high,size,dtype)
d=np.random.randint(1,10,1)
print(d)
# permutation 返回一个序列的随机排列
e=np.arange(1,10,1)
print(e)
np.random.shuffle(e)
print(np.random.permutation(e))
print(e)
# beta分布
f=np.random.beta(1,10,1)
print(f)

矩阵和通用函数

矩阵是ndarray的子类。numpy提供了两个基本的对象,一个是N维数组,一个是通用的函数对象。矩阵是建立在一维数组之上的二维数组。 

import numpy as np

# matrix创建矩阵
a=np.matrix([[1,2,3],[4,5,6]])
print(a)
print(a.ndim)

#矩阵数乘
b=a*3
print(b)
# 矩阵相加
c=a+b
print(c)
# 矩阵相乘
d=a*c.T
print(d)

#矩阵对应元素相乘
f=np.multiply(a,b)
print(f)

#转置矩阵
print(a.T)
#逆矩阵
print(a.I)
# 共轭转置
print(a.H)

ufnc函数

ufunc函数是一种可以对数组中所有元素都进行操作的函数。

import numpy as np

# 常用的数组运算
x=np.array([1,2,3])
y=np.array([4,5,6])
print('数组相乘',x*y)  #对应元素相乘
print('数组相除',x/y)
print('数组幂运算',x**y)
# 比较运算
print('数组比较结果',x>y)
# 逻辑运算
print('逻辑运算',np.all(x==y))

numpy进行数据分析

读写文件

NumPy的文件读/写主要有二进制的文件读/写和文件列表形式的数据读/写两种形式。学会读/写文件是利用NumPy进行数据处理的基础

import numpy as np

x=np.arange(1,10,1)
print(x)
y=np.array([1,2,3])
# 保存数组
np.save('./save_arr.npy',x)

# 导入数组
b=np.load('./save_arr.npy')
print(b)

#保存多个数组
np.savez('./hh.npz',x,y)

# 导入数组
c=np.load('./hh.npz')
print(c['arr_0'])
print(c['arr_1'])
import numpy as np

# savetxt保持到txt文件中
a=np.arange(1,10,1).reshape(3,3)
print(a)
np.savetxt('./hh.txt',a,fmt='%d')

b=np.loadtxt('./hh.txt')
print(b)

统计分析

排序

import numpy as np

a=np.arange(1,10,1)
np.random.shuffle(a)
print(a)
# 排序
# 直接排序,直接对数值进行排序
b=np.sort(a,axis=0)
print('直接排序',b)
# 间接排序,根据一个值对数据集进行排序
c=np.argsort(a)  #返回重新排序值的下标
print('间接排序',c)
d=a[c]
print('排序后的结果',d)

 去重和重复数据

import numpy as np

names=np.array(['小黄','小白','小明','小白'])

# 去重
a=np.unique(names)
print('去重后的数组',a)

#重复
b=np.tile(names,3)
print('重复三次',b)

c=np.repeat(names,3,axis=0)
print(c)

常用的统计函数

import numpy as np

a=np.arange(20).reshape(4,5)
print(a)

# 计算数组的和
print(np.sum(a))
print(np.sum(a,axis=0))
print(np.sum(a,axis=1))

# 计算均值
print(np.mean(a))

# 计算标准差
print(np.std(a,axis=0))

# 计算方差
print(np.var(a))

# 计算最小元素索引
print(np.argmin(a))

参考:

Python数据分析与应用

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/227028.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

20231207给NanoPC-T4(RK3399)开发板刷Android12的挖掘机方案的LOG

20231207给NanoPC-T4(RK3399)开发板刷Android12的挖掘机方案的LOG 2023/12/7 23:50 SDK:rk356x_android12_220722.tgz 只修改DTS的DTC部分就【直接】可以跑NanoPC-T4 参考资料: http://www.friendlyelec.com.cn/agent.asp http://www.friendlyelec.com.c…

[FPGA 学习记录] 快速开发的法宝——IP核

快速开发的法宝——IP核 文章目录 1 IP 核是什么2 为什么要使用 IP 核3 IP 核的存在形式4 IP 核的缺点5 Quartus II 软件下 IP 核的调用6 Altera IP 核的分类 在本小节当中,我们来学习一下 IP 核的相关知识。 IP 核在 FPGA 开发当中应用十分广泛,它被称为…

Spark RDD惰性计算的自主优化

原创/朱季谦 RDD(弹性分布式数据集)中的数据就如final定义一般,只可读而无法修改,若要对RDD进行转换或操作,那就需要创建一个新的RDD来保存结果。故而就需要用到转换和行动的算子。 Spark运行是惰性的,在…

UE Http笔记

c参考链接 UE4 开发如何使用 Http 请求_wx61ae2f5191643的技术博客_51CTO博客 虚幻引擎:UEC如何对JSON文件进行读写?-CSDN博客 UE4 HTTP使用 官方免费插件 VaRest 在代码插件创建的VaRest - 虚幻引擎商城 UE5在蓝图中使用Varest插件Get,Post两种常见请求方式…

C# Solidworks二次开发:三种获取SW设计结构树的方法-第二讲

今天这篇文章是接上一篇文章的,主要讲述的是获取SW设计结构树节点的第二种方法。 这个方法获取节点的逻辑是先获取最顶层节点,然后再通过获取顶层节点的子节点一层一层的把所有节点都找出来,也就是需要递归。想要用这个方法就要了解下面几个…

常见的校验码

在计算机领域中,校验码是一种用于检测或纠正数据传输或存储中错误的技术。校验码通常通过在数据中添加一些冗余信息来实现。其主要目的是确保数据的完整性和准确性。 奇偶校验码(Parity Check) 奇校验: 确保数据中二进制位中的1的…

JWT安全及WebGoat靶场

JWT 安全 cookie(放在浏览器) cookie 是一个非常具体的东西,指的就是浏览器里面能永久存储的一种数据,仅仅是浏览器实现的一种数据存储功能。 cookie 由服务器生成,发送给浏览器,浏览器把 cookie 以 kv 形式保存到某个目录下的…

文件同步及实现简单监控

1. 软件简介 rsync rsync 是一款开源的、快速的、多功能的、可实现全量及增量的本地或远程 数据同步备份的优秀工具。在同步备份数据时,默认情况下,Rsync 通过其 独特的“quick check”算法,它仅同步大小或者最后修改时间发生变化的文 件或…

CentOS上配置和管理HTTP服务器的工具和实用程序

在CentOS系统上,有多个工具和实用程序可以帮助你配置和管理HTTP服务器。以下是一些常用的工具和实用程序: Apache HTTP服务器: Apache是CentOS上最常用的HTTP服务器之一。它是一个开源的Web服务器软件,具有高度的可配置性和可扩…

在jupyter notebook中修改其他文件的解决方案

大家好,我是爱编程的喵喵。双985硕士毕业,现担任全栈工程师一职,热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的…

dell服务器安装PERCCLI

因在linux 系统中无法查看系统磁盘的raid级别,也无法得知raid状态,需要安装额外的包来监控,因是dell服务器,就在dell网站中下载并安装 1、下载链接:驱动程序和下载 | Dell 中国https://www.dell.com/support/home/zh-…

ELK(四)—els基本操作

目录 elasticsearch基本概念RESTful API创建非结构化索引(增)创建空索引(删)删除索引(改)插入数据(改)数据更新(查)搜索数据(id)&…

查看端口号是否被占用

windows10查看端口号是否被占用及解除占用的常用命令 netstat -ano:查看所有端口号占用情况 netstat -ano |findstr “XXX”:查看端口号为XXX的占用情况,如下: 得到进程号为12160的进程正在占用本地的9090端口号(如果只…

Python+requests+unittest+excel实现接口自动化测试框架

在刚刚进入测试行业的时候,最开始也是做功能测试,我想很多伙伴和我一样,觉得自动化测试都很高端,很神秘。迫不及待的想去学习作自动化测试。 以前比较常用数据库python做自动化,后面发现excel个人觉得更加适合&#x…

flex布局的flex为1到底是什么

参考博客:flex:1什么意思_公孙元二的博客-CSDN博客 flex:1即为flex-grow:1,经常用作自适应布局,将父容器的display:flex,侧边栏大小固定后,将内容区flex:1,内…

算术运算(这么简单?进来坐坐?)

先热热身 算术运算,也称为四则运算,包括加法、减法、乘法和除法。此外,算术运算还包括乘方和开方。 在算术中,加减被视为一级运算,乘除被视为二级运算,乘方和开方被视为三级运算。在一道算式中,…

GDPU 数据结构 天码行空13

文章目录 一、【实验目的】二、【实验内容】三、实验源代码四、实验结果五、实验总结 一、【实验目的】 (1) 理解插入排序算法的实现过程; (2)理解不同排序算法的时间复杂度及适用环境; (3)了解算法性能…

华为数通---配置Smart Link负载分担案例

定义 Smart Link,又叫做备份链路。一个Smart Link由两个接口组成,其中一个接口作为另一个的备份。Smart Link常用于双上行组网,提供可靠高效的备份和快速的切换机制。 目的 下游设备连接到上游设备,当使用单上行方式时&#x…

算能 MilkV Duo开发板实战——opencv-mobile (迷你版opencv库)的移植和应用

前言 OpenCV是一种开源的计算机视觉和机器学习软件库,旨在提供一组通用的计算机视觉工具。它用于图像处理、目标识别、人脸识别、机器学习等领域,广泛应用于计算机视觉任务。 OpenCV-Mobile是OpenCV库的轻量版本,专为移动平台(A…

服务器感染了.DevicData-D-XXXXXXXX勒索病毒,如何确保数据文件完整恢复?

引言: 勒索病毒成为网络安全的严峻挑战,而最新的.DevicData-D-XXXXXXXX勒索病毒更是引起广泛关注。本文将深入介绍.DevicData-D-XXXXXXXX勒索病毒的特征,提供恢复被其加密的数据文件的方法,并分享预防措施,以确保您的数…