地理空间与交通流量数据集:TaxiNYC、TaxiBJ、BikeDC和BikeNYC

在这里插入图片描述

目录

  • TaxiNYC数据集
  • TaxiBJ数据集
  • BikeDC数据集
      • 1. **数据来源与时间范围**
      • 2. **数据内容**
      • 3. **区域划分与站点处理**
      • 4. **图结构构建**
      • 5. **人群流动计算**
      • 6. **数据集的应用场景**
      • 7. **预测任务设置**
      • 8. **图的构建**
  • BikeNYC数据集
      • 1. **数据来源与时间范围**
      • 2. **数据内容**
      • 3. **区域划分与站点处理**
      • 4. **图结构构建**
      • 5. **人群流动计算**
      • 6. **数据集的应用场景**
      • 7. **预测任务设置**
      • 8. **图的构建**
  • 参考

TaxiNYC数据集

TaxiNYC数据集是关于纽约市出租车轨迹的GPS数据集,详细信息如下:

  1. 数据来源与时间范围
    TaxiNYC数据集包含了纽约市(NYC)出租车的GPS轨迹数据,时间范围从2011年1月1日2016年6月30日 ,覆盖了长达5年半的时间段。这些数据反映了纽约市内出租车的行驶路线、停靠点、乘客上下车的位置等信息。
  2. 区域划分
    • 数据集中,纽约市被划分为 100个不规则区域 ,这基于地图分割方法。与常规的网格化划分不同,不规则区域更好地反映了城市地理和功能的复杂性。这些区域划分的依据可能包括人口密度、道路网络、行政边界等因素。
    • 区域划分的主要目的是通过不同区域之间的出租车流动信息来构建时空图(spatiotemporal graph),进而捕捉城市中人群流动的模式。
  3. 图结构构建
    • 图节点 :图的节点代表划分出的100个不规则区域。
    • 边的构建 :图的边根据两个因素来定义: 区域之间的交通流动 (transition flow)和 地理距离 (geographical distance)。其中交通流动代表了两个区域之间的出租车流量,即出租车从一个区域驶入另一个区域的频率。
    • 图的意义 :通过构建这样一个图结构,可以捕捉到区域间人群和车辆流动的空间依赖关系,进而用于城市流动性预测模型的构建。
  4. 人群流量计算
    • 流量定义 :人群流量(crowd flows)通常分为 进流(inflow)出流(outflow) ,其中:
      • 进流是指进入某个区域的出租车数量。
      • 出流是指离开某个区域的出租车数量。
    • 流量计算 :该数据集参考相关研究【13】,计算每个时间段内每个区域的人群流量。人群流量的计算帮助模型捕捉城市中动态变化的出行需求和交通情况。
  5. 应用场景
    TaxiNYC数据集在城市计算、交通流量预测、人群流动分析等领域有广泛的应用。通过分析该数据集,研究者可以了解:
    • 城市中不同区域间的交通流动规律;
    • 出租车的需求分布和热点区域;
    • 不同时间段(如高峰期和非高峰期)内的出行模式;
    • 长期趋势和季节性变化等。
  6. 预测任务
    在使用TaxiNYC数据集进行预测时,通常会采用模型来预测未来某个时间段的流量分布。这可以用于城市规划、交通调度和共享出行服务的优化。例如,基于历史数据,可以预测未来某一天或某一时段内的出租车需求量。
  7. 实验设置
    • 数据集中使用的最后四周数据作为测试集,之前的数据作为训练集。
    • 构建的图表示的是城市的 通勤网络 ,通过站点或区域的地理距离来建立节点之间的联系。
    • 在每个区域的地理空间位置上,通常使用区域的中心位置作为代表,以便近似地描述各个区域的空间关系。

TaxiNYC数据集因其丰富的时空信息和大规模数据量,为城市人群流动分析提供了宝贵的研究机会。

TaxiBJ数据集

TaxiBJ数据集是关于北京市出租车GPS轨迹的时空数据集,详细信息如下:

  1. 数据来源与时间范围
    TaxiBJ数据集包含了北京市内多个时间段的出租车GPS轨迹数据,数据时间跨度为以下四个时间区间:
    • 2013年7月1日 - 2013年10月30日
    • 2014年3月1日 - 2014年6月30日
    • 2015年3月1日 - 2015年6月30日
    • 2015年11月1日 - 2016年4月10日
      这些数据覆盖了不同季节和年度,能够反映北京市不同时间段的出租车活动情况。
  2. 数据内容
    TaxiBJ数据集包含了北京市内出租车的GPS轨迹信息。这些轨迹数据包括以下内容:
    • 出租车位置 :每辆出租车在不同时间点的地理位置(经纬度坐标)。
    • 时间戳 :记录了每次位置更新的精确时间。
    • 乘客上下车地点 :每个乘客的上车和下车地点也可以从轨迹数据中提取出来。
  3. 区域划分
    • 不规则区域划分 :类似于TaxiNYC数据集,我们将北京市划分为不规则的区域。在该数据集中,北京市被划分为 多个不规则区域 。区域划分方法与TaxiNYC数据集一致,基于地图分割方法。这种不规则的划分考虑到了北京市的地理特征、交通网络分布以及各个区域的功能和人口密度等因素。
    • 区域划分的主要目的是便于通过不同区域之间的出租车流动情况来构建时空图,进而捕捉北京市内的人群流动模式。
  4. 图结构构建
    • 图节点 :每个不规则区域都作为图的一个节点。
    • 边的构建 :图的边依据 区域之间的交通流动 (transition flow)和 地理距离 (geographical distance)构建。交通流动指的是某个时间段内出租车从一个区域进入另一个区域的数量,而地理距离则基于各区域的地理位置计算。
    • 图的作用 :通过构建时空图,可以有效捕捉北京市不同区域之间的动态交通模式,有助于研究北京市的人群流动、交通需求以及城市规划等问题。
  5. 人群流量计算
    • 进流(Inflow) :表示进入某个区域的出租车数量。
    • 出流(Outflow) :表示离开某个区域的出租车数量。
    • 流量计算方法 :人群流量的计算方法与TaxiNYC类似,参考了相关文献【13】,用于量化每个区域在某个时间段内的人群流入和流出情况。通过分析这些数据,可以发现北京市内的交通热点区域及其随时间的变化趋势。
  6. 数据集的应用场景
    TaxiBJ数据集在交通预测、人群流动分析以及城市规划等领域具有广泛的应用。具体应用场景包括:
    • 交通流量预测 :通过分析不同时间段的出租车流量,可以预测未来某个时间点北京市内各区域的出租车需求。
    • 人群流动分析 :该数据集能够帮助研究人员了解北京市不同区域之间的人群流动模式,发现高峰期和非高峰期的变化规律。
    • 城市规划与优化 :数据可以用于优化交通网络、制定合理的出租车调度策略,以及改善城市出行体验。
  7. 预测任务设置
    • 在实验中,使用数据集最后四周的数据作为测试集,之前的数据作为训练集。这种划分方式有助于评估模型在新数据上的预测效果。
    • 北京市的图构建方法和人群流动计算方法与纽约市相同,均基于区域之间的交通流动和地理距离进行计算。
  8. 图的构建
    • 图中的节点表示北京市内的不规则区域。
    • 图的边是根据两个区域之间的交通流动(transition flow)和地理距离(geographical distance)构建的。交通流动捕捉了区域之间的动态联系,而地理距离反映了区域的物理空间相互关系。

总结
TaxiBJ数据集提供了丰富的时空信息,覆盖了北京市多个时间段的出租车流动情况。通过该数据集,研究人员可以研究城市内的人群流动模式、交通需求的变化规律以及进行交通流量预测。此外,数据集还为城市交通规划和管理提供了重要的支持,能够帮助制定更合理的交通调度方案。

BikeDC数据集

BikeDC数据集是关于美国华盛顿特区公共自行车系统的时空数据集,详细信息如下:

1. 数据来源与时间范围

BikeDC数据集来源于华盛顿特区的公共自行车系统,涵盖了自行车骑行的相关信息。数据包括骑行的起始和结束时间、起始和结束车站ID、骑行时长等关键信息。该数据集为分析城市公共自行车系统的流动性提供了良好的基础。

2. 数据内容

BikeDC数据集主要包括以下信息:

  • 骑行时长(Trip Duration) :每次骑行的持续时间,单位为秒。
  • 起始车站ID(Start Station ID) :骑行的起始车站的唯一标识符。
  • 结束车站ID(End Station ID) :骑行的结束车站的唯一标识符。
  • 起始时间(Start Time) :骑行开始的时间戳,记录了精确的开始时间。
  • 结束时间(End Time) :骑行结束的时间戳,记录了精确的结束时间。

3. 区域划分与站点处理

  • 站点数量 :华盛顿特区的公共自行车系统中总共有 472个车站 ,每个车站作为一个节点,记录自行车的借入和归还信息。
  • 不规则区域划分 :由于部分站点的数据较少或者缺失,为了确保数据分析的有效性,研究中对站点进行了筛选和聚类操作,最终将有效的站点聚类成 120个不规则区域
  • 聚类方法 :为了减少数据噪声以及提高计算效率,数据中使用了聚类操作【16】,将一些具有相似流量模式的站点合并成一个区域。这种不规则的区域划分考虑了站点的位置分布以及流量特征,从而更好地反映华盛顿特区的实际交通情况。

4. 图结构构建

为了分析城市自行车系统中的流动模式,BikeDC数据集被用来构建一个时空图网络。具体步骤如下:

  • 图节点(Nodes) :每个区域(即聚类后的站点)作为图的一个节点,代表某个地理区域内的自行车站点。
  • 边的构建(Edges) :图的边根据以下两个因素进行构建:
    • 区域之间的流动量(Transition Flow) :表示在某一时间段内,区域A到区域B的自行车流动量。这种流动量反映了不同区域之间的骑行需求。
    • 地理距离(Geographical Distance) :根据各个区域的中心位置来计算区域之间的地理距离。地理距离能够反映站点之间的空间关联性,帮助构建合理的图结构。

5. 人群流动计算

  • 进流(Inflow) :指某个区域在特定时间段内,归还的自行车数量(即有多少辆自行车被归还到该区域的车站)。
  • 出流(Outflow) :指某个区域在特定时间段内,借出的自行车数量(即有多少辆自行车从该区域的车站借出)。
  • 流量的计算方法 :对于每个站点,系统分别计算其进流和出流。由于站点已经被聚类为不规则区域,因此每个区域的流动情况将被汇总并记录。历史观测的平均流量用于计算每个区域的流动模式。

6. 数据集的应用场景

BikeDC数据集广泛用于以下场景:

  • 城市交通流动分析 :通过分析不同时间段的自行车流动情况,研究人员能够了解华盛顿特区内各个区域之间的交通需求、骑行高峰期与低谷期的分布,以及在特殊事件(如节假日、大型活动)期间的骑行行为变化。
  • 自行车流量预测 :可以预测未来某个时间段内各区域的自行车借入和归还数量,从而为公共自行车调度和运维提供决策支持。
  • 城市规划与管理 :利用这些数据,可以优化城市中的自行车站点布局,合理安排自行车数量以及改善公共交通接驳效率,提升城市交通系统的整体运作效率。

7. 预测任务设置

在实验中,BikeDC数据集的预测任务是基于过去的数据来预测未来的自行车流动情况。具体设置为:

  • 测试集 :选择数据集中最后四周的数据作为测试集,用于验证模型的预测能力。
  • 训练集 :数据集的其余部分作为训练集,用于模型的训练过程。这样能确保模型基于历史数据学习到自行车流动的模式,进而进行未来的预测。

8. 图的构建

BikeDC数据集中的图是通过各个区域之间的流动量和地理距离构建的:

  • 节点表示区域 :每个不规则区域作为图的一个节点。
  • 边的定义 :通过不同区域之间的自行车流动量(进流与出流)构建图的边,同时考虑区域之间的物理地理距离。

总结
BikeDC数据集为研究城市自行车系统中的流动模式提供了重要数据支持。通过该数据集,研究人员可以有效分析华盛顿特区的自行车使用情况,预测自行车的流动需求,并为城市规划和交通管理提供数据依据。该数据集还可以用于构建时空图,进一步分析区域间的流动性关系,助力城市智能交通系统的优化和提升。

BikeNYC数据集

BikeNYC数据集是关于纽约市公共自行车系统的时空数据集,提供了自行车骑行的详细记录。该数据集与华盛顿特区的BikeDC数据集类似,涵盖了纽约市的公共自行车骑行信息。以下是BikeNYC数据集的详细介绍:

1. 数据来源与时间范围

  • 数据来源 :BikeNYC数据集来源于纽约市的公共自行车系统(Citi Bike),是美国最大的共享单车服务之一。
  • 时间范围 :数据覆盖时间为2013年7月1日2016年12月31日 ,即约3年半的时间段。这一时间跨度提供了丰富的时空数据,适用于研究不同季节、时间段以及城市活动中的自行车使用模式。

2. 数据内容

BikeNYC数据集包含以下主要信息:

  • 骑行时长(Trip Duration) :记录每次骑行的持续时间,单位为秒。
  • 起始车站ID(Start Station ID) :每次骑行开始时的车站标识符。
  • 结束车站ID(End Station ID) :每次骑行结束时的车站标识符。
  • 起始时间(Start Time) :骑行的开始时间,包括具体日期和时间。
  • 结束时间(End Time) :骑行的结束时间,包括具体日期和时间。

3. 区域划分与站点处理

  • 站点数量 :BikeNYC数据集中的骑行信息来自纽约市的 416个自行车站点 。这些站点分布在纽约市的不同区域,为市民提供便捷的骑行服务。
  • 站点筛选与聚类 :由于某些站点的数据量较少,研究人员移除了这些无效或记录较少的站点。剩余的站点被聚类为 120个不规则区域 ,每个区域代表若干个地理位置相近、流量模式相似的站点。这种聚类操作能够减少数据的噪声,并提高分析的有效性。
  • 聚类方法 :与BikeDC数据集相同,采用了平均历史观测流量的聚类方法,将数据相似的站点合并到一起,生成不规则的区域,用于后续的图结构构建。

4. 图结构构建

为了分析自行车流动的空间和时间模式,研究人员利用BikeNYC数据集构建了时空图网络。构建过程如下:

  • 节点(Nodes) :每个聚类后的不规则区域作为图中的一个节点,代表了纽约市中一片区域内的自行车站点集合。
  • 边的构建(Edges) :图的边根据以下两个主要因素进行定义:
    • 区域之间的流动量(Transition Flow) :表示在某个时间段内,不同区域之间的自行车借出和归还情况。这反映了区域之间的骑行需求与流动模式。
    • 地理距离(Geographical Distance) :根据各个区域的中心位置来计算区域之间的物理地理距离。这种距离可以帮助研究人员理解空间相关性,并进一步分析区域间的交通联系。

5. 人群流动计算

  • 进流(Inflow) :表示某个区域在特定时间段内,归还的自行车数量,即有多少辆自行车被还到该区域的车站。
  • 出流(Outflow) :表示某个区域在特定时间段内,借出的自行车数量,即有多少辆自行车从该区域的车站借出。
  • 流量计算方法 :与BikeDC数据集相同,BikeNYC数据集中对于每个区域分别计算进流和出流。聚类后的区域将各站点的进出流量汇总,以获得区域的整体流动情况。这种流动数据能够帮助分析和预测城市的骑行需求。

6. 数据集的应用场景

BikeNYC数据集可应用于多种场景,帮助分析和优化纽约市的公共自行车系统:

  • 城市交通流动分析 :通过分析数据集中各时间段的骑行模式,研究人员能够了解不同区域之间的自行车使用情况,确定骑行高峰时段、常见的骑行路线以及某些区域的骑行需求。
  • 自行车流量预测 :该数据集可以用于构建预测模型,预测未来某个时间段内的自行车进出流量,从而为公共自行车系统的运维和调度提供数据支持,避免某些车站自行车供不应求或过剩。
  • 城市规划与决策支持 :通过深入分析数据,可以帮助城市规划部门优化自行车站点的布局,提升城市的绿色交通网络效能,促进公共交通的协同发展。

7. 预测任务设置

实验中,BikeNYC数据集被用于预测未来某个时间段内的自行车流动情况。具体设置为:

  • 测试集 :数据集中最后四周的数据被用作测试集,用于验证模型的性能。
  • 训练集 :除去测试集的部分,剩余的数据用于训练模型,以学习过去的骑行模式并进行未来的预测。

8. 图的构建

BikeNYC数据集的图是通过以下步骤构建的:

  • 节点表示区域 :每个不规则区域作为图的节点,代表纽约市内的骑行区域。
  • 边的定义 :通过区域间的流动量和地理距离定义图的边,这种结构能有效捕捉空间上的相关性以及不同区域之间的交通联系。

总结
BikeNYC数据集为研究纽约市的公共自行车系统提供了重要的时空数据支持。通过该数据集,研究人员能够分析城市中自行车的使用情况,进行流量预测,并为城市的交通规划和自行车站点布局提供有力的依据。这一数据集不仅适用于流量预测和调度优化,还能帮助研究大城市中绿色交通系统的有效性与发展趋势。

参考

http://www.nyc.gov/html/tlc/html/about/trip_record_data.shtml
https://www.nyc.gov/site/tlc/about/tlc-trip-record-data.page
https://www.capitalbikeshare.com/system-data
https://www.citibikenyc.com/system-data
http://www.statsmodels.org

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/894800.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

单位评职称需要在指定媒体上投稿发表文章看我如何轻松应对

在职场中,晋升与评职称是一项不可或缺的任务,而在这个过程中,完成相关的投稿更是至关重要。作为单位的一名员工,当我得知自己需要在指定的媒体上发表文章以满足职称评审要求时,心中既期待又忐忑。起初,我选择了传统的邮箱投稿方式,然而却没想到,这条路竟让我倍感挫折。 刚开始,…

FlexMatch: Boosting Semi-Supervised Learning with Curriculum Pseudo Labeling

FlexMatch: Boosting Semi-Supervised Learning with Curriculum Pseudo Labeling 摘要:引言:背景3 flexMatch3.1 Curriculum Pseudo Labeling3.2 阈值预热3.3非线性映射函数实验4.1 主要结果4.2 ImageNet上的结果4.3收敛速度加速4.4 消融研究5 相关工作摘要: 最近提出的Fi…

◇【论文_20150225】 DQN_2015(nature) 〔Google DeepMind〕

整理代码 1:DQN CartPole_v1.ipynb https://www.nature.com/articles/nature14236 Human-level control through deep reinforcement learning 文章目录 摘要主体:要做什么 如何做的 要点keypoints实验 与 评估2 个指标和 各游戏的最好方法比较t-S…

数据湖新突破:Hudi让实时数据分析更高效!

开源数据湖对比 Hudi的使用收益 Hudi使用成效 Hudi内部机制 增量摄入与更新 Hudi使用一种混合日志存储模式(称为Copy-on-Write),可以同时处理基础数据文件(Parquet)和增量日志(HoodieLogFile)。以 MergeOnReadTable 的 upsert 操作为例,当有新数据到来时,Hudi会先将数据以行…

【OpenMMLab】MMagic入门

1. 概述 OpenMMLab 概述:OpenMMLab 是上海人工智能实验室的计算机视觉算法开源体系,是深度学习时代全球领域最全面、最具影响力的视觉算法开源项目,也是全球最大最全的开源计算机视觉算法库。特点: 丰富的算法库:已累…

第三天-128.最长连续序列

这道题我完全没有思路,求助gpt,让它给我思路: 这个问题要求找出数组中数字连续的最长序列,并且时间复杂度必须是 O(n),可以采用 哈希集(HashSet)来帮助我们高效地判断数字是否存在。以下是解决…

AI周报(10.13-10.19)

AI应用-清华校友用AI破解162个高数定理 加州理工、斯坦福和威大的研究人员提出了LeanAgent——一个终身学习,并能证明定理的AI智能体。LeanAgent会根据数学难度优化的学习轨迹课程,来提高学习策略。并且,它还有一个动态数据库,有效…

Ubuntu如何显示pcl版本

终端输入: apt-cache show libpcl-dev可以看到,Ubuntu20.04,下载的pcl,应该都是1.10版本的

百易云资产管理运营系统 ufile.api.php SQL注入漏洞复现

0x01 产品描述: 百易云资产管理运营系统,是专门针对企业不动产资产管理和运营需求而设计的一套综合解决方案。该系统能够覆盖资产的全生命周期管理,包括资产的登记、盘点、评估、处置等多个环节,同时提供强大的运营分析功能&#…

执行php artisan storage:link报错

php artisan storage:link Call to undefined function Illuminate\Filesystem\symlink() 参考文章 https://learnku.com/laravel/t/73729

基于web的酒店客房管理系统【附源码】

基于web的酒店客房管理系统(源码L文说明文档) 目录 4 系统设计 4.1 系统概述 4.2系统结构 4.3.数据库设计 4.3.1数据库实体 4.3.2数据库设计表 5系统详细实现 5.1 用户信息管理 5.2 会员信息管理 5.3 客房信息管理 5.…

基于SpringBoot健康生活助手微信小程序【附源码】

基于SpringBoot健康生活助手微信小程序 效果如下: 管理员登录界面 管理员主界面 用户管理界面 健康记录管理界面 健康目标管理界面 微信小程序首页界面 活动信息界面 留言反馈界面 研究背景 近年来,由于计算机技术和互联网技术的飞速发展,…

SAP PP之功能 动态安全库存(Dynamic Safety stock)配置及计算逻辑说明测试

SAP动态安全库存(Dynamic Safety stock)配置及计算逻辑说明测试 概念及计算逻辑: 动态安全库存(Dynamic Safety stock): 它根据平均的日需求(Average daily requirements)数量&am…

父子元素中只有子元素设置margin-bottom的问题

问题代码如下所示 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>Title</title><style>.div1 {background-color: red;width: 80px;height: 80px;border: 1px solid orange;}.div2 {bac…

STM32—FLASH闪存

1.FLASH简介 STM32F1系列的FLASH包含程序存储器、系统存储器和选项字节三个部分&#xff0c;通过闪存存储器接口&#xff08;外设&#xff09;可以对程序存储器和选项字节进行擦除和编程 我们怎么操作这些存储器呢&#xff1f;这就需要用到这个闪存存储器接口了&#xff0c;闪…

联系拯救者Y9000P2022笔记本电脑进入BIOS快捷键

联系拯救者Y9000P2022笔记本电脑进入BIOS快捷键 文章目录 联系拯救者Y9000P2022笔记本电脑进入BIOS快捷键1. 进入BIOS快捷键2. 快速进入BIOS设置界面3. 快速进入启动项选择界面 1. 进入BIOS快捷键 进入BIOS设置界面的快捷键为F2快速进入启动项选择界面的快捷键为F12 2. 快速进…

充电桩高压快充发展趋势

一、为什么要升级充电电压 1、新能源发展的困境 随着电动汽车加快发展&#xff0c;用户对电动汽车接受度不断提高&#xff0c;充电问题是影响电动车普及的重要因素&#xff0c;用户快速补能的需求强烈&#xff0c;例如节假日经常会遇到&#xff0c;高速充电1小时&#xff0c;…

jmeter中设置属性值的注意事项

jmeter中&#xff0c;可以在beanshell sampler, jsr223 sampler中对变量、属性等做一些操作&#xff0c;使得测试脚本变得更有关联性和一致性&#xff0c;以便完成更好的测试工作。 但是&#xff0c;在实际运用中&#xff0c;设置属性值经常会有些情况需要注意。不是我们以为的…

全能PDF工具集 | PDF Shaper Ultimate v14.6 便携版

软件简介 PDF Shaper是一款功能强大的PDF工具集&#xff0c;它提供了一系列用于处理PDF文档的工具。这款软件使用户能够轻松地转换、分割、合并、提取页面以及旋转和加密PDF文件。PDF Shaper的界面简洁直观&#xff0c;使得即使是新手用户也能快速上手。它支持广泛的功能&…

智能体网络时代即将来临,我们需要新的连接技术

备注&#xff1a;如果你也对这个话题感兴趣&#xff0c;欢迎联系我们&#xff1a; email: chgaoweigmail.com Discord: https://discord.gg/CDYdTPXXMB 官网: https://pi-unlimited.com 我们的方案代码已经开源&#xff0c;github&#xff1a;https://github.com/chgaowei/…