目录
- TaxiNYC数据集
- TaxiBJ数据集
- BikeDC数据集
- 1. **数据来源与时间范围**
- 2. **数据内容**
- 3. **区域划分与站点处理**
- 4. **图结构构建**
- 5. **人群流动计算**
- 6. **数据集的应用场景**
- 7. **预测任务设置**
- 8. **图的构建**
- BikeNYC数据集
- 1. **数据来源与时间范围**
- 2. **数据内容**
- 3. **区域划分与站点处理**
- 4. **图结构构建**
- 5. **人群流动计算**
- 6. **数据集的应用场景**
- 7. **预测任务设置**
- 8. **图的构建**
- 参考
TaxiNYC数据集
TaxiNYC数据集是关于纽约市出租车轨迹的GPS数据集,详细信息如下:
- 数据来源与时间范围 :
TaxiNYC数据集包含了纽约市(NYC)出租车的GPS轨迹数据,时间范围从2011年1月1日到 2016年6月30日 ,覆盖了长达5年半的时间段。这些数据反映了纽约市内出租车的行驶路线、停靠点、乘客上下车的位置等信息。 - 区域划分 :
- 数据集中,纽约市被划分为 100个不规则区域 ,这基于地图分割方法。与常规的网格化划分不同,不规则区域更好地反映了城市地理和功能的复杂性。这些区域划分的依据可能包括人口密度、道路网络、行政边界等因素。
- 区域划分的主要目的是通过不同区域之间的出租车流动信息来构建时空图(spatiotemporal graph),进而捕捉城市中人群流动的模式。
- 图结构构建 :
- 图节点 :图的节点代表划分出的100个不规则区域。
- 边的构建 :图的边根据两个因素来定义: 区域之间的交通流动 (transition flow)和 地理距离 (geographical distance)。其中交通流动代表了两个区域之间的出租车流量,即出租车从一个区域驶入另一个区域的频率。
- 图的意义 :通过构建这样一个图结构,可以捕捉到区域间人群和车辆流动的空间依赖关系,进而用于城市流动性预测模型的构建。
- 人群流量计算 :
- 流量定义 :人群流量(crowd flows)通常分为 进流(inflow)和出流(outflow) ,其中:
- 进流是指进入某个区域的出租车数量。
- 出流是指离开某个区域的出租车数量。
- 流量计算 :该数据集参考相关研究【13】,计算每个时间段内每个区域的人群流量。人群流量的计算帮助模型捕捉城市中动态变化的出行需求和交通情况。
- 流量定义 :人群流量(crowd flows)通常分为 进流(inflow)和出流(outflow) ,其中:
- 应用场景 :
TaxiNYC数据集在城市计算、交通流量预测、人群流动分析等领域有广泛的应用。通过分析该数据集,研究者可以了解:- 城市中不同区域间的交通流动规律;
- 出租车的需求分布和热点区域;
- 不同时间段(如高峰期和非高峰期)内的出行模式;
- 长期趋势和季节性变化等。
- 预测任务 :
在使用TaxiNYC数据集进行预测时,通常会采用模型来预测未来某个时间段的流量分布。这可以用于城市规划、交通调度和共享出行服务的优化。例如,基于历史数据,可以预测未来某一天或某一时段内的出租车需求量。 - 实验设置 :
- 数据集中使用的最后四周数据作为测试集,之前的数据作为训练集。
- 构建的图表示的是城市的 通勤网络 ,通过站点或区域的地理距离来建立节点之间的联系。
- 在每个区域的地理空间位置上,通常使用区域的中心位置作为代表,以便近似地描述各个区域的空间关系。
TaxiNYC数据集因其丰富的时空信息和大规模数据量,为城市人群流动分析提供了宝贵的研究机会。
TaxiBJ数据集
TaxiBJ数据集是关于北京市出租车GPS轨迹的时空数据集,详细信息如下:
- 数据来源与时间范围 :
TaxiBJ数据集包含了北京市内多个时间段的出租车GPS轨迹数据,数据时间跨度为以下四个时间区间:- 2013年7月1日 - 2013年10月30日
- 2014年3月1日 - 2014年6月30日
- 2015年3月1日 - 2015年6月30日
- 2015年11月1日 - 2016年4月10日
这些数据覆盖了不同季节和年度,能够反映北京市不同时间段的出租车活动情况。
- 数据内容 :
TaxiBJ数据集包含了北京市内出租车的GPS轨迹信息。这些轨迹数据包括以下内容:- 出租车位置 :每辆出租车在不同时间点的地理位置(经纬度坐标)。
- 时间戳 :记录了每次位置更新的精确时间。
- 乘客上下车地点 :每个乘客的上车和下车地点也可以从轨迹数据中提取出来。
- 区域划分 :
- 不规则区域划分 :类似于TaxiNYC数据集,我们将北京市划分为不规则的区域。在该数据集中,北京市被划分为 多个不规则区域 。区域划分方法与TaxiNYC数据集一致,基于地图分割方法。这种不规则的划分考虑到了北京市的地理特征、交通网络分布以及各个区域的功能和人口密度等因素。
- 区域划分的主要目的是便于通过不同区域之间的出租车流动情况来构建时空图,进而捕捉北京市内的人群流动模式。
- 图结构构建 :
- 图节点 :每个不规则区域都作为图的一个节点。
- 边的构建 :图的边依据 区域之间的交通流动 (transition flow)和 地理距离 (geographical distance)构建。交通流动指的是某个时间段内出租车从一个区域进入另一个区域的数量,而地理距离则基于各区域的地理位置计算。
- 图的作用 :通过构建时空图,可以有效捕捉北京市不同区域之间的动态交通模式,有助于研究北京市的人群流动、交通需求以及城市规划等问题。
- 人群流量计算 :
- 进流(Inflow) :表示进入某个区域的出租车数量。
- 出流(Outflow) :表示离开某个区域的出租车数量。
- 流量计算方法 :人群流量的计算方法与TaxiNYC类似,参考了相关文献【13】,用于量化每个区域在某个时间段内的人群流入和流出情况。通过分析这些数据,可以发现北京市内的交通热点区域及其随时间的变化趋势。
- 数据集的应用场景 :
TaxiBJ数据集在交通预测、人群流动分析以及城市规划等领域具有广泛的应用。具体应用场景包括:- 交通流量预测 :通过分析不同时间段的出租车流量,可以预测未来某个时间点北京市内各区域的出租车需求。
- 人群流动分析 :该数据集能够帮助研究人员了解北京市不同区域之间的人群流动模式,发现高峰期和非高峰期的变化规律。
- 城市规划与优化 :数据可以用于优化交通网络、制定合理的出租车调度策略,以及改善城市出行体验。
- 预测任务设置 :
- 在实验中,使用数据集最后四周的数据作为测试集,之前的数据作为训练集。这种划分方式有助于评估模型在新数据上的预测效果。
- 北京市的图构建方法和人群流动计算方法与纽约市相同,均基于区域之间的交通流动和地理距离进行计算。
- 图的构建 :
- 图中的节点表示北京市内的不规则区域。
- 图的边是根据两个区域之间的交通流动(transition flow)和地理距离(geographical distance)构建的。交通流动捕捉了区域之间的动态联系,而地理距离反映了区域的物理空间相互关系。
总结 :
TaxiBJ数据集提供了丰富的时空信息,覆盖了北京市多个时间段的出租车流动情况。通过该数据集,研究人员可以研究城市内的人群流动模式、交通需求的变化规律以及进行交通流量预测。此外,数据集还为城市交通规划和管理提供了重要的支持,能够帮助制定更合理的交通调度方案。
BikeDC数据集
BikeDC数据集是关于美国华盛顿特区公共自行车系统的时空数据集,详细信息如下:
1. 数据来源与时间范围
BikeDC数据集来源于华盛顿特区的公共自行车系统,涵盖了自行车骑行的相关信息。数据包括骑行的起始和结束时间、起始和结束车站ID、骑行时长等关键信息。该数据集为分析城市公共自行车系统的流动性提供了良好的基础。
2. 数据内容
BikeDC数据集主要包括以下信息:
- 骑行时长(Trip Duration) :每次骑行的持续时间,单位为秒。
- 起始车站ID(Start Station ID) :骑行的起始车站的唯一标识符。
- 结束车站ID(End Station ID) :骑行的结束车站的唯一标识符。
- 起始时间(Start Time) :骑行开始的时间戳,记录了精确的开始时间。
- 结束时间(End Time) :骑行结束的时间戳,记录了精确的结束时间。
3. 区域划分与站点处理
- 站点数量 :华盛顿特区的公共自行车系统中总共有 472个车站 ,每个车站作为一个节点,记录自行车的借入和归还信息。
- 不规则区域划分 :由于部分站点的数据较少或者缺失,为了确保数据分析的有效性,研究中对站点进行了筛选和聚类操作,最终将有效的站点聚类成 120个不规则区域 。
- 聚类方法 :为了减少数据噪声以及提高计算效率,数据中使用了聚类操作【16】,将一些具有相似流量模式的站点合并成一个区域。这种不规则的区域划分考虑了站点的位置分布以及流量特征,从而更好地反映华盛顿特区的实际交通情况。
4. 图结构构建
为了分析城市自行车系统中的流动模式,BikeDC数据集被用来构建一个时空图网络。具体步骤如下:
- 图节点(Nodes) :每个区域(即聚类后的站点)作为图的一个节点,代表某个地理区域内的自行车站点。
- 边的构建(Edges) :图的边根据以下两个因素进行构建:
- 区域之间的流动量(Transition Flow) :表示在某一时间段内,区域A到区域B的自行车流动量。这种流动量反映了不同区域之间的骑行需求。
- 地理距离(Geographical Distance) :根据各个区域的中心位置来计算区域之间的地理距离。地理距离能够反映站点之间的空间关联性,帮助构建合理的图结构。
5. 人群流动计算
- 进流(Inflow) :指某个区域在特定时间段内,归还的自行车数量(即有多少辆自行车被归还到该区域的车站)。
- 出流(Outflow) :指某个区域在特定时间段内,借出的自行车数量(即有多少辆自行车从该区域的车站借出)。
- 流量的计算方法 :对于每个站点,系统分别计算其进流和出流。由于站点已经被聚类为不规则区域,因此每个区域的流动情况将被汇总并记录。历史观测的平均流量用于计算每个区域的流动模式。
6. 数据集的应用场景
BikeDC数据集广泛用于以下场景:
- 城市交通流动分析 :通过分析不同时间段的自行车流动情况,研究人员能够了解华盛顿特区内各个区域之间的交通需求、骑行高峰期与低谷期的分布,以及在特殊事件(如节假日、大型活动)期间的骑行行为变化。
- 自行车流量预测 :可以预测未来某个时间段内各区域的自行车借入和归还数量,从而为公共自行车调度和运维提供决策支持。
- 城市规划与管理 :利用这些数据,可以优化城市中的自行车站点布局,合理安排自行车数量以及改善公共交通接驳效率,提升城市交通系统的整体运作效率。
7. 预测任务设置
在实验中,BikeDC数据集的预测任务是基于过去的数据来预测未来的自行车流动情况。具体设置为:
- 测试集 :选择数据集中最后四周的数据作为测试集,用于验证模型的预测能力。
- 训练集 :数据集的其余部分作为训练集,用于模型的训练过程。这样能确保模型基于历史数据学习到自行车流动的模式,进而进行未来的预测。
8. 图的构建
BikeDC数据集中的图是通过各个区域之间的流动量和地理距离构建的:
- 节点表示区域 :每个不规则区域作为图的一个节点。
- 边的定义 :通过不同区域之间的自行车流动量(进流与出流)构建图的边,同时考虑区域之间的物理地理距离。
总结 :
BikeDC数据集为研究城市自行车系统中的流动模式提供了重要数据支持。通过该数据集,研究人员可以有效分析华盛顿特区的自行车使用情况,预测自行车的流动需求,并为城市规划和交通管理提供数据依据。该数据集还可以用于构建时空图,进一步分析区域间的流动性关系,助力城市智能交通系统的优化和提升。
BikeNYC数据集
BikeNYC数据集是关于纽约市公共自行车系统的时空数据集,提供了自行车骑行的详细记录。该数据集与华盛顿特区的BikeDC数据集类似,涵盖了纽约市的公共自行车骑行信息。以下是BikeNYC数据集的详细介绍:
1. 数据来源与时间范围
- 数据来源 :BikeNYC数据集来源于纽约市的公共自行车系统(Citi Bike),是美国最大的共享单车服务之一。
- 时间范围 :数据覆盖时间为2013年7月1日到 2016年12月31日 ,即约3年半的时间段。这一时间跨度提供了丰富的时空数据,适用于研究不同季节、时间段以及城市活动中的自行车使用模式。
2. 数据内容
BikeNYC数据集包含以下主要信息:
- 骑行时长(Trip Duration) :记录每次骑行的持续时间,单位为秒。
- 起始车站ID(Start Station ID) :每次骑行开始时的车站标识符。
- 结束车站ID(End Station ID) :每次骑行结束时的车站标识符。
- 起始时间(Start Time) :骑行的开始时间,包括具体日期和时间。
- 结束时间(End Time) :骑行的结束时间,包括具体日期和时间。
3. 区域划分与站点处理
- 站点数量 :BikeNYC数据集中的骑行信息来自纽约市的 416个自行车站点 。这些站点分布在纽约市的不同区域,为市民提供便捷的骑行服务。
- 站点筛选与聚类 :由于某些站点的数据量较少,研究人员移除了这些无效或记录较少的站点。剩余的站点被聚类为 120个不规则区域 ,每个区域代表若干个地理位置相近、流量模式相似的站点。这种聚类操作能够减少数据的噪声,并提高分析的有效性。
- 聚类方法 :与BikeDC数据集相同,采用了平均历史观测流量的聚类方法,将数据相似的站点合并到一起,生成不规则的区域,用于后续的图结构构建。
4. 图结构构建
为了分析自行车流动的空间和时间模式,研究人员利用BikeNYC数据集构建了时空图网络。构建过程如下:
- 节点(Nodes) :每个聚类后的不规则区域作为图中的一个节点,代表了纽约市中一片区域内的自行车站点集合。
- 边的构建(Edges) :图的边根据以下两个主要因素进行定义:
- 区域之间的流动量(Transition Flow) :表示在某个时间段内,不同区域之间的自行车借出和归还情况。这反映了区域之间的骑行需求与流动模式。
- 地理距离(Geographical Distance) :根据各个区域的中心位置来计算区域之间的物理地理距离。这种距离可以帮助研究人员理解空间相关性,并进一步分析区域间的交通联系。
5. 人群流动计算
- 进流(Inflow) :表示某个区域在特定时间段内,归还的自行车数量,即有多少辆自行车被还到该区域的车站。
- 出流(Outflow) :表示某个区域在特定时间段内,借出的自行车数量,即有多少辆自行车从该区域的车站借出。
- 流量计算方法 :与BikeDC数据集相同,BikeNYC数据集中对于每个区域分别计算进流和出流。聚类后的区域将各站点的进出流量汇总,以获得区域的整体流动情况。这种流动数据能够帮助分析和预测城市的骑行需求。
6. 数据集的应用场景
BikeNYC数据集可应用于多种场景,帮助分析和优化纽约市的公共自行车系统:
- 城市交通流动分析 :通过分析数据集中各时间段的骑行模式,研究人员能够了解不同区域之间的自行车使用情况,确定骑行高峰时段、常见的骑行路线以及某些区域的骑行需求。
- 自行车流量预测 :该数据集可以用于构建预测模型,预测未来某个时间段内的自行车进出流量,从而为公共自行车系统的运维和调度提供数据支持,避免某些车站自行车供不应求或过剩。
- 城市规划与决策支持 :通过深入分析数据,可以帮助城市规划部门优化自行车站点的布局,提升城市的绿色交通网络效能,促进公共交通的协同发展。
7. 预测任务设置
实验中,BikeNYC数据集被用于预测未来某个时间段内的自行车流动情况。具体设置为:
- 测试集 :数据集中最后四周的数据被用作测试集,用于验证模型的性能。
- 训练集 :除去测试集的部分,剩余的数据用于训练模型,以学习过去的骑行模式并进行未来的预测。
8. 图的构建
BikeNYC数据集的图是通过以下步骤构建的:
- 节点表示区域 :每个不规则区域作为图的节点,代表纽约市内的骑行区域。
- 边的定义 :通过区域间的流动量和地理距离定义图的边,这种结构能有效捕捉空间上的相关性以及不同区域之间的交通联系。
总结 :
BikeNYC数据集为研究纽约市的公共自行车系统提供了重要的时空数据支持。通过该数据集,研究人员能够分析城市中自行车的使用情况,进行流量预测,并为城市的交通规划和自行车站点布局提供有力的依据。这一数据集不仅适用于流量预测和调度优化,还能帮助研究大城市中绿色交通系统的有效性与发展趋势。
参考
http://www.nyc.gov/html/tlc/html/about/trip_record_data.shtml
https://www.nyc.gov/site/tlc/about/tlc-trip-record-data.page
https://www.capitalbikeshare.com/system-data
https://www.citibikenyc.com/system-data
http://www.statsmodels.org