使用TransBigData快速高效地处理、分析、挖掘出租车GPS数据

图片

01、TransBigData简介

TransBigData是一个为交通时空大数据处理、分析和可视化而开发的Python包。TransBigData为处理常见的交通时空大数据(如出租车GPS数据、共享单车数据和公交车GPS数据等)提供了快速而简洁的方法。TransBigData为交通时空大数据分析的各个阶段提供了多种处理方法,代码简洁、高效、灵活、易用,可以用简洁的代码实现复杂的数据任务。

目前,TransBigData主要提供以下方法:

数据预处理:对数据集提供快速计算数据量、时间段、采样间隔等基本信息的方法,也针对多种数据噪声提供了相应的清洗方法。

数据栅格化:提供在研究区域内生成、匹配多种类型的地理栅格(矩形、三角形、六边形及geohash栅格)的方法体系,能够以向量化的方式快速算法将空间点数据映射到地理栅格上。

数据可视化:基于可视化包keplergl,用简单的代码即可在Jupyter Notebook上交互式地可视化展示数据。

轨迹处理:从轨迹数据GPS点生成轨迹线型,轨迹点增密、稀疏化等。

地图底图、坐标转换与计算:加载显示地图底图与各类特殊坐标系之间的坐标转换。

特定处理方法:针对各类特定数据提供相应处理方法,如从出租车GPS数据中提取订单起讫点,从手机信令数据中识别居住地与工作地,从地铁网络GIS数据构建网络拓扑结构并计算最短路径等。

TransBigData可以通过pip或者conda安装,在命令提示符中运行下面代码即可安装:

pip install -U transbigdata

安装完成后,在Python中运行如下代码即可导入TransBigData包。

In [1]:
import transbigdata as tbd

02、数据预处理

TransBigData与数据处理中常用的Pandas和GeoPandas包能够无缝衔接。首先我们引入Pandas包并读取出租车GPS数据:

In [2]:
import pandas as pd  
#读取数据      
data = pd.read_csv('TaxiData-Sample.csv',header = None)   
data.columns = ['VehicleNum','time','lon','lat','OpenStatus','Speed'] 
data.head()

结果如图1所示。

图片

■ 图1 出租车GPS数据

然后,引入GeoPandas包,读取研究范围的区域信息并展示:


In [3]:
import geopandas as gpd  
#读取研究范围区域信息  
sz = gpd.read_file(r'sz/sz.shp')  
sz.plot()

结果如图2所示。

图片

■ 图2  研究范围的区域信息

TransBigData包集成了交通时空数据的一些常用预处理方法。其中,tbd.clean_outofshape方法输入数据和研究范围区域信息,能够剔除研究范围外的数据。而tbd.clean_taxi_status方法则可以剔除出租车GPS数据中载客状态瞬间变化的记录。在使用预处理方法时需要传入数据表中重要信息列所对应的列名,代码如下:


In [4]:
#数据预处理  
#剔除研究范围外的数据,计算原理是在方法中先栅格化后栅格匹配研究范围后实现对应。因此这里需要同时定义栅格大小,越小则精度越高  
data = tbd.clean_outofshape(data, sz, col=['lon', 'lat'], accuracy=500)  
#剔除出租车数据中载客状态瞬间变化的数据  
data = tbd.clean_taxi_status(data, col=['VehicleNum', 'time', 'OpenStatus'])

经过上面代码的处理,我们就已经将出租车GPS数据中研究范围以外的数据和载客状态瞬间变化的数据予以剔除。

03、数据栅格化

栅格形式(地理空间上相同大小的网格)是表达数据分布最基本的方法,GPS数据经过栅格化后,每个数据点都含有其所在的栅格信息。采用栅格表达数据的分布时,其表示的分布情况与真实情况接近。

TransBigData工具为我们提供了一套完整、快速、便捷的栅格处理体系。用TransBigData进行栅格划分时,首先需要确定栅格化的参数(可以理解为定义了一个栅格坐标系),参数可以帮助我们快速进行栅格化:

In [5]:
#定义研究范围边界
bounds = [113.75, 22.4, 114.62, 22.86]
#通过边界获取栅格化参数
params = tbd.area_to_params(bounds,accuracy = 1000)
params

Out [5]:
{'slon': 113.75, 
 'slat': 22.4, 
 'deltalon': 0.00974336289289822, 
 'deltalat': 0.008993210412845813,
 'theta': 0,
 'method': 'rect',
 'gridsize': 1000}

此时输出的栅格化参数params的内容存储了栅格坐标系的原点坐标(slon、slat)、单个栅格的经纬度长宽 (deltalon、deltalat)、栅格的旋转角度(theta)、栅格的形状(method参数,其值可以是方形rect、三角形tri和六边形hexa)以及栅格的大小(gridsize参数,单位为米)。

取得栅格化参数后,我们便可以用TransBigData中提供的方法对GPS数据进行栅格匹配、生成等操作。完整的栅格处理方法体系如图3所示。

图片

■ 图3  TransBigData所提供的栅格处理体系

使用tbd.GPS_to_grid方法能够为每一个出租车GPS点生成,该方法会生成编号列 LONCOL与 LATCOL,由这两列共同指定所在的栅格:


In [6]:
#将GPS数据对应至栅格,将生成的栅格编号列赋值到数据表上作为新的两列
data['LONCOL'],data['LATCOL'] = tbd.GPS_to_grids(data['lon'],data['lat'],params)

 下一步,聚合集计每一栅格内的数据量,并为栅格生成地理几何图形,构建GeoDataFrame:


In [7]:
#聚合集计栅格内数据量  
grid_agg = data.groupby(['LONCOL','LATCOL'])['VehicleNum'].count().reset_index()  
#生成栅格的几何图形  
grid_agg['geometry'] = tbd.grid_to_polygon([grid_agg['LONCOL'],grid_agg['LATCOL']],params)  
#转换为GeoDataFrame  
grid_agg = gpd.GeoDataFrame(grid_agg)  
#绘制栅格  
grid_agg.plot(column = 'VehicleNum',cmap = 'autumn_r')  

结果如图4所示。

图片

  

■ 图 5数据栅格化的结果

对于一个正式的数据可视化图来说,我们还需要添加底图、色条、指北针和比例尺。TransBigData也提供了相应的功能,代码如下:

In [8]:
import matplotlib.pyplot as plt  
fig =plt.figure(1,(8,8),dpi=300)  
ax =plt.subplot(111)  
plt.sca(ax)  
#添加行政区划边界作为底图
sz.plot(ax = ax,edgecolor = (0,0,0,0),facecolor = (0,0,0,0.1),linewidths=0.5)
#定义色条位置  
cax = plt.axes([0.04, 0.33, 0.02, 0.3])  
plt.title('Data count')  
plt.sca(ax)  
#绘制数据  
grid_agg.plot(column = 'VehicleNum',cmap = 'autumn_r',ax = ax,cax = cax,legend = True)  
#添加指北针和比例尺  
tbd.plotscale(ax,bounds = bounds,textsize = 10,compasssize = 1,accuracy = 2000,rect = [0.06,0.03],zorder = 10)  
plt.axis('off')  
plt.xlim(bounds[0],bounds[2])  
plt.ylim(bounds[1],bounds[3])  
plt.show()  

 结果如图5所示。

图片

■ 图5  tbd包绘制的出租车GPS数据分布

04、订单起讫点OD提取与聚合集计

针对出租车GPS数据,TransBigData提供了直接从数据中提取出出租车订单起讫点(OD)信息的方法,代码如下:


In [9]:  
#从GPS数据提取OD  
oddata = tbd.taxigps_to_od(data,col = ['VehicleNum','time','Lng','Lat','OpenStatus'])  
oddata  

 结果如图6所示。

图片

■ 图6  tbd包提取的出租车OD

TransBigData包提供的栅格化方法可以让我们快速地进行栅格化定义,只需要修改accuracy参数,即可快速定义不同大小粒度的栅格。我们重新定义一个2km*2km的栅格坐标系,将其参数传入tbd.odagg_grid方法对OD进行栅格化聚合集计并生成GeoDataFrame:


In [10]:  
#重新定义栅格,获取栅格化参数  
params = tbd.area_to_params(bounds,accuracy = 2000)  
#栅格化OD并集计  
od_gdf = tbd.odagg_grid(oddata,params)  
od_gdf.plot(column = 'count')  

 结果如图7所示。

图片

■ 图7  tbd集计的栅格OD

添加地图底图,色条与比例尺指北针:


In [11]:
#创建图框  
import matplotlib.pyplot as plt  
fig =plt.figure(1,(8,8),dpi=300)  
ax =plt.subplot(111)  
plt.sca(ax)  
#添加行政区划边界作为底图  
sz.plot(ax = ax,edgecolor = (0,0,0,1),facecolor = (0,0,0,0),linewidths=0.5)
#绘制colorbar  
cax = plt.axes([0.05, 0.33, 0.02, 0.3])  
plt.title('Data count')  
plt.sca(ax)  
#绘制OD  
od_gdf.plot(ax = ax,column = 'count',cmap = 'Blues_r',linewidth = 0.5,vmax = 10,cax = cax,legend = True)  
#添加比例尺和指北针  
tbd.plotscale(ax,bounds = bounds,textsize = 10,compasssize = 1,accuracy = 2000,rect = [0.06,0.03],zorder = 10)  
plt.axis('off')  
plt.xlim(bounds[0],bounds[2])  
plt.ylim(bounds[1],bounds[3])  
plt.show()  

 结果如图8所示。

图片

■ 图8  TransBigData绘制的栅格OD数据

同时,TransBigData包也提供了将OD直接聚合集计到区域间的方法:


In [12]:
#OD集计到区域
#方法1:在不传入栅格化参数时,直接用经纬度匹配
od_gdf = tbd.odagg_shape(oddata,sz,round_accuracy=6)  
#方法2:传入栅格化参数时,程序会先栅格化后匹配以加快运算速度,数据量大时建议使用  
od_gdf = tbd.odagg_shape(oddata,sz,params = params)  
od_gdf.plot(column = 'count')  

 结果如图9所示。

图片

■ 图9  tbd集计的小区OD

加载地图底图并调整出图参数:

        


In [13]:
#创建图框  
import matplotlib.pyplot as plt  
import plot_map  
fig =plt.figure(1,(8,8),dpi=300)  
ax =plt.subplot(111)  
plt.sca(ax)  
#添加行政区划边界作为底图  
sz.plot(ax = ax,edgecolor = (0,0,0,0),facecolor = (0,0,0,0.2),linewidths=0.5)
#绘制colorbar  
cax = plt.axes([0.05, 0.33, 0.02, 0.3])  
plt.title('count')  
plt.sca(ax)  
#绘制OD  
od_gdf.plot(ax = ax,vmax = 100,column = 'count',cax = cax,cmap = 'autumn_r',linewidth = 1,legend = True)  
#添加比例尺和指北针  
tbd.plotscale(ax,bounds = bounds,textsize = 10,compasssize = 1,accuracy = 2000,rect = [0.06,0.03],zorder = 10)  
plt.axis('off')  
plt.xlim(bounds[0],bounds[2])  
plt.ylim(bounds[1],bounds[3])  
plt.show()  

 结果如图10所示。

图片

■ 图10  区域间OD可视化结果

05、交互可视化

在TransBigData中,我们可以对出租车数据使用简单的代码在jupyter notebook中快速进行交互可视化。这些可视化方法底层依托了keplergl包,可视化的结果不再是静态的图片,而是能够与鼠标响应交互的地图应用。

tbd.visualization_data方法可以实现数据分布的可视化,将数据传入该方法后,TransBigData会首先对数据点进行栅格集计,然后生成数据的栅格,并将数据量映射至颜色上。代码如下:


In [14]:  
#可视化数据点分布  
tbd.visualization_data(data,col = ['lon','lat'],accuracy=1000,height = 500)

 结果如图11所示。

■ 图11 数据分布的栅格可视化

对于出租车数据中所提取出的出行OD,也可使用tbd.visualization_od方法实现OD的弧线可视化。该方法也会对OD数据进行栅格聚合集计,生成OD弧线,并将不同大小的OD出行量映射至不同颜色。代码如下:


In [15]:  
#可视化数据点分布  
tbd.visualization_od(oddata,accuracy=2000,height = 500) 

结果如图12所示。 

 

■ 图12  OD分布的弧线可视化

对个体级的连续追踪数据,tbd.visualization_trip方法可以将数据点处理为带有时间戳的轨迹信息并动态地展示,代码如下:


In [16]:  
#动态可视化轨迹  
tbd.visualization_trip(data,col = ['lon','lat','VehicleNum','time'],height = 500)  

结果图13所示。点击其中的播放键,可以看到出租车运行的动态轨迹效果。

 ■ 13 出租车轨迹动态可视化

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/63060.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

一篇万能英语作文范文怎么写?聪明灵犀英语作文写作工具分享

一篇万能英语作文范文怎么写?英语作文是英语学习中不可或缺的一环,但是对于很多人来说,写作并不是一件容易的事情。本文将分享一些实用的英语作文写作工具,帮助你更好地写作。 1. 明确主题 写作之前,首先需要明确主题…

一文让你了解网络安全和云安全的区别与联系

相信大家对于网络安全和云安全的关系不是很了解,今天小编就和大家来一起聊聊网络安全和云安全的区别与联系,仅供参考哦! 网络安全和云安全的区别 1、两者定义不同。网络安全通常指计算机网络的安全,实际上也可以指计算机通信网络…

Go Windows下开发环境配置(图文)

Go Windows下开发环境配置 下载 安装 点击下载的安装包进行安装。安装路径可以选择到自己的目录。 环境变量配置 GOROOT:(指定到安装目录下) GOPATH:(是工作空间) path:在安装时已经添加了…

日撸java三百行day81-83

文章目录 说明CNN卷积神经网络1. 什么是CNN(CNN基础知识)1. 基本概念2.输入层3.卷积层3.1 图像3.2 卷积核3.3 偏置数3.4 滑动窗口步长3.5 特征图个数(特征图通道数或深度)3.6 边缘填充3.7 卷积过程例子 4. 激活函数5. 池化层6.全连…

bagging集成与boosting集成的区别是什么?

bagging集成与boosting集成的区别 区别一:数据方面 Bagging:对数据进行采样训练; Boosting:根据前一轮学习结果调整数据的重要性。 区别二:投票方面 Bagging:所有学习器平权投票; Boosting:对学习器进行加权投票。 区别三:…

Maven-生命周期及命令

关于本文 ✍写作原因 之前在学校学习的时候,编写代码使用的项目都是单体架构,导入开源框架依赖时只需要在pom.xml里面添加依赖,点一下reload按钮即可解决大部分需求;但是在公司使用了dubbo微服务架构之后发现只知道使用reload不足…

网络安全--原型链污染

目录 1.什么是原型链污染 2.原型链三属性 1)prototype 2)constructor 3)__proto__ 4)原型链三属性之间关系 3.JavaScript原型链继承 1)分析 2)总结 3)运行结果 4.原型链污染简单实验 1)实验一 2&#xff0…

回归预测 | MATLAB实现POA-CNN-LSTM鹈鹕算法优化卷积长短期记忆神经网络多输入单输出回归预测

回归预测 | MATLAB实现POA-CNN-LSTM鹈鹕算法优化卷积长短期记忆神经网络多输入单输出回归预测 目录 回归预测 | MATLAB实现POA-CNN-LSTM鹈鹕算法优化卷积长短期记忆神经网络多输入单输出回归预测预测效果基本介绍模型描述程序设计参考资料 预测效果 基本介绍 MATLAB实现POA-CNN…

【Linux】多路转接 -- select函数

文章目录 1. 认识select函数2. select函数原型3. socket就绪条件4. select工作流程5. select服务器6. select的优缺点 首先我们要了解一下,什么是多路转接? 多路转接也叫多路复用,是一种用于管理多个IO通道的技术。它能实现同时监听和处理多个…

《动手学深度学习》优化算法学习习题

优化算法 梯度下降类 小批量随机梯度下降,通过平均梯度来减小方差 动量法 基础 泄露平均法:用来取代梯度的计算 β \beta β这个参数控制了取多久时间的平均值 上述推理构成了”加速”梯度方法的基础,例如具有动量的梯度。 在优化问题…

直播招聘小程序解决方案

项目开发愿景 介绍工作拿佣金,Boss直播现真身。做为直播招聘的新平台,让求职和招聘变得更简单!企业发布招聘视频,展现公司环境与实力,开通会员可以直播招聘、在线面试功能;求职者刷视频可以刷到工作…

day5 6 7-牛客67道剑指offer-JZ43、45、49、50、51、52、53、55、79、数组中只出现一次的数字

文章目录 1. JZ43 整数中1出现的次数(从1到n整数中1出现的次数)2. JZ45 把数组排成最小的数3. JZ49 丑数最小堆三指针法 动态规划 4. JZ50 第一个只出现一次的字符5. JZ51 数组中的逆序对6. JZ52 两个链表的第一个公共结点迭代递归 7. JZ53 数字在升序数…

想在金融界拥有一席之地吗—社科院杜兰大学金融管理硕士助你圆梦

追求高学历是为了什么?一纸证书吗?显然并非如此,只有读过研的人才有话语权。在上升一个平台后,你必然会发现,更高学历得到的不止是一张文凭。而是更大的平台、更广阔的视野、更包容的环境,更多样的文化。最…

机器学习笔记之优化算法(九)收敛速度的简单认识

机器学习笔记之优化算法——收敛速度的简单认识 引言收敛速度的判别标准 Q \mathcal Q Q-收敛速度 R \mathcal R R-收敛速度关于算法复杂度与收敛速度 引言 本节对收敛速度简单介绍。 收敛速度的判别标准 我们之前几节介绍了线搜索方法 ( Line Search Method ) (\text{Line …

从小白到数据库达人!Mysql优化让你的社招面试无往不利!

大家好,我是小米,在这个美好的时刻又迎来了我们的技术小窝。今天,我们要聊一聊一个在数据库领域中无比重要的话题 —— Mysql 优化!是不是感觉很兴奋呢?废话不多说,让我们直接进入今天的主题。 背景知识 …

输入框长度在XSS测试中如何绕过字符长度限制

大家好,这是我编写的第一篇文章,之所以会分享这个故事,是因为我花了几个晚上的时间,终于找到了解决某个问题的方法。故事如下: 几个月前,我被邀请参加一个非公共的漏洞悬赏项目,在初期发现了一些…

动态规划(二)

一、线性DP 1.1数字三角形 #include<iostream> #include<algorithm>using namespace std;const int N 510,INF 1e9;int n; int a[N][N]; int f[N][N];int main() {scanf("%d",&n);for(int i 1;i < n;i ){for(int j 1;j < i; j )scanf(&qu…

大数据之Hadoop(一)

目录 一、准备三台服务器 二、虚拟机间配置免密登录 三、安装JDK 四、关闭防火墙 五、关闭安全模块SELinux 六、修改时区和自动时间同步 一、准备三台服务器 我们先准备三台服务器&#xff0c;可以通过虚拟机的方式创建&#xff0c;也可以选择云服务器。 关于如何创建虚…

神经网络的搭建与各层分析

为什么去西藏的人都会感觉很治愈 拉萨的老中医是这么说的 缺氧脑子短路&#xff0c;很多事想不起来&#xff0c;就会感觉很幸福 一、卷积层 解释&#xff1a;卷积层通过卷积操作对输入数据进行处理。它使用一组可学习的滤波器&#xff08;也称为卷积核或特征检测器&#xff09…

Java on Azure Tooling 6月更新|标准消费和专用计划及本地存储账户(Azurite)支持

作者&#xff1a;Jialuo Gan - Program Manager, Developer Division at Microsoft 排版&#xff1a;Alan Wang 大家好&#xff0c;欢迎阅读 Java on Azure 工具的六月更新。在本次更新中&#xff0c;我们将介绍 Azure Spring Apps 标准消费和专用计划支持以及本地存储账户&…