数据探索与可视化:可视化分析数据-下

目录


一、前言

二、介绍

Ⅰ.时间序列数据

Ⅱ.文本数据

Ⅲ.社交网络数据

三、结语


一、前言

 那么本篇将互怼其他类型的数据分析的可视化方法进行介绍,它们分别是:时间序列,文本数据,社交网络数据。

二、介绍

Ⅰ.时间序列数据

import pandas as pd
import matplotlib.pyplot as plt
opsd=pd.read_csv(r'C:\Users\asuspc\Desktop\program\data\chap2\OpenPowerSystemData.csv')
opsd.plot(kind='line',x='Date',y='Solar',figsize=(10,6))
plt.ylabel('Value')
plt.show()

 通过pd的read_csv的方法对数据进行读取,然后刻画折线图,俺么我们就能得出随着时间的变化值的变化大小。

当然在数据当中我们还未对缺失的数据进行处理以及一些异常值的过滤,这些将交给你,通过处理后的数据进行可视化才能够更加的完善,判断数据的变化趋势才有足够的根据性。

对于时间序列数据,我们可以用散点图和折线图进行数据分析,但是需要注意的是,时间序列的数据数据位置不能随意交换与变化,通常我们用X轴来表示时间的变化,有一定的顺序。如若发生变化则数据原有的含义将会改变。

Ⅱ.文本数据

from wordcloud import WordCloud
Tking=pd.read_csv(r'C:\Users\asuspc\Desktop\program\data\chap2\三国演义分词后.csv')
TK_fre=Tking.x.value_counts()
TK_fre=pd.DataFrame({"word":TK_fre.index,"Freq":TK_fre.values
})
TK_fre=TK_fre[TK_fre.Freq>100]
worddict={}
for key,value in zip(TK_fre.word,TK_fre.Freq):
    worddict[key]=value
my_wc= WordCloud( background_color='white',width=2000 ,height=1600 ,max_words=1000 ,font_path="C:/Windows/Fonts/simhei.ttc")

my_wc.generate_from_frequencies(frequencies=worddict)
plt.figure(figsize(10,7))
plt.imshow(my_wc)
plt.axis('off')
plt.show()

​

我们将数据读入之后对对各个人物名字出现的频次进行计数,然后将出现名字次数大于100的囊括在变量之内,之后就是用字典的形式将数据放入其中,axis('off')是将线轴去掉,WorldCloud就是对这些数据进行词云操作的格式的设置对象,下一句则为生成,即可展示。 

 

 

文本数据是最常见的非结构化数据,最常用的数据可视化的方法就是词云,通过词云的方法我们就能够对文本词汇出现的频繁程度进行可视化。我们可以看到刘备、曹操、孔明等较大的字体则是原著中出现较多次数的人物名称。

Ⅲ.社交网络数据

社交网络数据的可视化则要用到图。图这种数据结构在课程数据结构与算法当中有所提及,有学过的同学在看这一部分或许好理解,没学过的同学可以搜索相关的资料进行学习。

import networkx as nx
from networkx.drawing.nx_agraph import graphviz_layout
karate=pd.read_csv(r'C:\Users\asuspc\Desktop\program\data\chap2\karate.csv')
G=nx.Graph()
for ii in karate.index:
    G.add_edge(karate.From[ii],karate.to[ii],weight=karate.weight[ii])

elarge=[(u,v) for (u,v,d) in G.edges(data=True) if d['weight']>3.5]
esmall=[(u,v) for (u,v,d) in G.edges(data=True) if d['weight']<3.5]
pos=graphviz_layout(G,prog='fdp')
nx.drwa_networkx_nodes(G,pos,alpha=0.4,node_size=20)
nx.drwa_networkx_edges(G,pos,edgelist=elarge,width=2,alpha=0.5,edge_color='red')
nx.drwa_networkx_edges(G,pos,edgelist=esmall,width=2,alpha=0.5,edge_color='blue',style='dashed')
nx.draw_networkx_labels(G,pos,font_size=14)
plt.axis('off')

先用方法Graph将社交图进行生成G=nx.Graph(),接着为图像添加边for ii in karate.index:
    G.add_edge(karate.From[ii],karate.to[ii],weight=karate.weight[ii]),然后再根据权重的大小定义两种边elarge,esmall,再然后定义图的布局方式pos=graphviz_layout(G,prog='fdp'),nx.drwa_networkx_nodes(G,pos,alpha=0.4,node_size=20)
nx.drwa_networkx_edges(G,pos,edgelist=elarge,width=2,alpha=0.5,edge_color='red')
nx.drwa_networkx_edges(G,pos,edgelist=esmall,width=2,alpha=0.5,edge_color='blue',style='dashed'),接着可视化节点和边,nx.draw_networkx_labels(G,pos,font_size=14)最后再为节点添加标签就可以了。

三、结语

可视化对数据分析有着很大的帮助,希望大家能够在学习的过程当中慢慢体会和积累,接下来我们要接触的是样本数据之间的距离。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/366464.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【python接口自动化】- 正则用例参数化

&#x1f525; 交流讨论&#xff1a;欢迎加入我们一起学习&#xff01; &#x1f525; 资源分享&#xff1a;耗时200小时精选的「软件测试」资料包 &#x1f525; 教程推荐&#xff1a;火遍全网的《软件测试》教程 &#x1f4e2;欢迎点赞 &#x1f44d; 收藏 ⭐留言 &#x1…

鸿蒙开发有必要学吗?看完这篇再决定吧

在科技的潮流中&#xff0c;每一次新操作系统的诞生都是对旧秩序的挑战与新机遇的孕育。鸿蒙操作系统的出现&#xff0c;无疑是近年来科技界最引人注目的事件之一。自华为于2019年正式推出鸿蒙系统以来&#xff0c;这一我们自主研发的操作系统不仅在国内引起巨大反响&#xff0…

在windows平台上mysql的安装教程

1.下载 mysql下载网址&#xff1a;https://dev.mysql.com/downloads/installer/ 这里直接选择的是mysql的社区版。自己使用直接选择免费的就行 直接选择下载 2.安装过程 选择Server only 就行 下一步 下一步 下一步&#xff0c;选择弱密码把&#xff0c;方便学习和自己使用 设置…

Java对象属性设置方式

&#x1f497;wei_shuo的个人主页 &#x1f4ab;wei_shuo的学习社区 &#x1f310;Hello World &#xff01; 对象属性设置方式 直接赋值 SystemMappingCode systemMappingCode new SystemMappingCode();systemMappingCode.setCodeResp(request.getCodeResp());systemMapping…

POI操作word表格,添加单元格,单元格对齐方法(不必合并单元格)

添加单元格&#xff0c;直接对row进行create新的cell&#xff0c;则会导致新创建的单元格与前面的单元格不对齐的现象。 //表格信息XWPFTable table doc.createTable();table.setWidth("100%");//第一行XWPFTableRow row0table.getRow(0);XWPFTableCell cell00row0.…

基于Python的招聘网站爬虫及可视化的设计与实现

摘要&#xff1a;现在&#xff0c;随着互联网网络的飞速发展&#xff0c;人们获取信息的最重要来源也由报纸、电视转变为了互联网。互联网的广泛应用使网络的数据量呈指数增长&#xff0c;让人们得到了更新、更完整的海量信息的同时&#xff0c;也使得人们在提取自己最想要的信…

Linux - iptables 防火墙

一. 安全技术和防火墙 1.安全技术 入侵检测系统&#xff08;Intrusion Detection Systems&#xff09;&#xff1a;特点是不阻断任何网络访问&#xff0c;量化、定位来自内外网络的威胁情况&#xff0c;主要以提供报警和事后监督为主&#xff0c;提供有针对性的指导措施和安全…

【C++游戏开发-01】推箱子

C游戏开发 文章目录 C游戏开发[TOC](文章目录) 前言一、逻辑分析1.1地图实现1.2人物的移动1.2.1小人移动1.2.2其他移动 1.3墙壁的碰撞1.4箱子的推动1.4.1什么时候推箱子1.4.2什么情况可以推箱子 1.5胜利的判断1.6卡关的处理1.7关卡的切换 二、DEMO代码2.1游戏框架2.2各功能函数…

【亲测有效】无法获得下列许可 SOLIDWORKS Standard 无效的(不一致的) 使用许可号码 (-8,544,0)

在观看本文章前&#xff0c;请注意看你的报错代码是否和我的一致&#xff0c;如果不是&#xff0c;直接跳过本文章。 前言&#xff1a;我安装的是SOLIDWORKS2022版&#xff0c;软件已经安装完毕&#xff0c;SolidWorks_Flexnet_Server文件夹里面的两个注册表已经安装完毕&#…

Python tkinter (7) ——Scale控件

Python的标准Tk GUI工具包的接口 tkinter系列文章 python tkinter窗口简单实现 Python tkinter (1) —— Label标签 Python tkinter (2) —— Button标签 Python tkinter (3) —— Entry标签 Python tkinter (4) —— Text控件 Python tkinter (5) 选项按钮与复选框 Pyt…

Stata收敛性分析(含详细代码说明和样例数据)

Stata收敛性分析&#xff08;含详细代码说明和样例数据&#xff09; 收敛性分析是管理科学和运筹学中重要的概念&#xff0c;是一种解决决策者对他们的管理策略的反馈的方式和手段。它的最终目的是帮助管理者从复杂的环境中筛选最优的解决方案。收敛性分析一般情况下会结合一些…

为客户解决痛点,电子纸增加制表功能

为客户解决痛点&#xff0c;电子纸增加制表功能 部分客户购买我们的电子纸后反馈效果很好&#xff0c;但是在配套组态软件制作电子纸模板时&#xff0c;遇到需要制作表格的时候比较麻烦。像是在画板作画一样&#xff0c;比较费时&#xff0c;而且效果不是很好&#xff0c;没办…

用VsCode写python

1.创建一个文件夹 2.创建.py文件 print("Hello World") print("*"*10) 4.运行 在终端版本fileName python3 app.py

MATLAB矩阵的操作(第二部分)

师从清风 矩阵的创建方法 在MATLAB中&#xff0c;矩阵的创建方法主要有三种&#xff0c;分别是&#xff1a;直接输入法、函数创建法和导入本地文件中的数据。 直接输入法 输入矩阵时要以中括号“[ ]”作为标识符号&#xff0c;矩阵的所有元素必须都在中括号内。 矩阵的同行元…

零基础学Python之核心基础知识

1.Python入门简介 &#xff08;1&#xff09;什么是Python Life is short, you need Python&#xff01;人生苦短&#xff0c;我用Python Python 是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。 Python 的设计具有很强的可读性&#xff0c;相比其他语言…

笔记---中国剩余定理

全程学自y总 AcWing.204.表达整数的奇怪方式 给定 2 n 2n 2n 个整数 a a a1, a a a2,…, a a an 和 m m m1, m m m2,…, m m mn&#xff0c;求一个最小的非负整数 x x x&#xff0c;满足 ∀ i ∈ [ 1 , n ] , x ≡ m ∀i∈[1,n],x≡m ∀i∈[1,n],x≡mi ( m o d a (mod a (…

SpringMVC中的文件上传与下载功能,以及虚拟目录的配置

目录 文件下载 文件上传 第一步&#xff1a;添加依赖&#xff1a; 第二步&#xff1a;在SpringMVC的配置文件中添加配置&#xff1a; 三、控制器方法&#xff1a; 虚拟目录配置方式&#xff1a; 前端代码 SpringMVC中的文件上传与下载功能是通过MultipartResolver来实现…

华为鸿蒙DevEco Studio编辑器初体验

目录 前言DevEco Studio编辑器使用准备工作应用/服务运行可视化调试DevEco Studio配置参数列表番外篇&#xff1a;参加鸿蒙生态学堂创新实训营北京站的培训结束语 前言 众所周知华为鸿蒙作为移动应用开发的第三个热门领域&#xff08;前两个热门领域iOS原生、Android原生都已…

半桥式三相无刷直流电动机不同导通角的性能的变化

半桥式三相无刷直流电动机不同导通角的性能的变化 syms Omega clear clcOmega0pi/180*120 for Omega_x[pi/180*120,pi/180*130,pi/180*140,pi/180*150,pi/180*160,pi/180*170,pi/180*180]Omega_x*180/piOmega_x_0 (4*sin(Omega_x/2)/(Omega_xsin(Omega_x)))/(4*sin(Omega0/2)/…

数据结构—基础知识:哈夫曼编码

数据结构—基础知识&#xff1a;哈夫曼编码 哈夫曼编码的主要思想 在进行数据压缩时&#xff0c;为了使压缩后的数据文件尽可能短&#xff0c;可采用不定长编码。其基本思想是&#xff1a;为出现次数较多的字符编以较短的编码。为确保对数据文件进行有效的压缩文件和对压缩文…