1 文章信息
论文题目为《Multi-Graph Convolutional-Recurrent Neural Network (MGC-RNN) for Short-Term Forecasting of Transit Passenger Flow》的一篇2022年10月发表在IEEE TRANSACTIONS ON INTELLIGENT TRANSPORTATION SYSTEMS的基于多图卷积-循环神经网络的地铁短时客流预测文章。
2 摘要
短时客流预测对交通管理和客流调控具有重要意义。空间依赖性、时间依赖性、其他潜在因素驱动的站间相关性以及外生因素对城市轨道交通网络短时客流预测提出了挑战。作者提出了一种创新的深度学习方法:多图卷积-循环神经网络(MGC-RNN)来预测城市轨道交通系统的客流,以融合这些复杂因素。作者提出使用多个图来编码空间和其他异构站间相关性。站间相关性的时间动态也通过所提出的多图卷积-循环神经网络结构建模。通过序列到序列(Seq2Seq)架构,可以提前多个时间步长对所有站点的流入和流出进行整体预测。将该方法应用于深圳地铁客流的短期预测。实验结果表明,MGC-RNN在预测精度方面优于基准模型。此外,车站间的网络距离、网络结构和近期客流模式是客流预测的重要因素。此外,LSTM--encoder-decoder的结构可以很好地捕获时间依赖性。总体而言,该框架可以为精细的动态客流预测提供多个视角,并在时空预测任务中显示出多源异构数据融合的可能性。
3 介绍
3.1 研究意义
城市轨道交通短时客流预测是交通管理和客流调控的重要组成部分。良好的客流短期预测可以帮助轨道交通运营商优化服务时刻表,加强车站客流调节规划,从而更准确地调整运输供给以适应乘客需求,也可以提前意识到紧急情况(乘客涌入)并实施应急准备计划。同时,准确的客流预测信息可以帮助乘客了解在不久的将来会有大量的乘客涌入,并合理调整自己的出行路径、方式和出发时间。
3.2 研究挑战
然而,客流的短期预测是一项具有挑战性的任务,因为客流的动态可能受到许多复杂因素的影响,包括空间依赖性、时间依赖性、其他潜在因素驱动的站间相关性以及外生因素。
(1)空间依赖性:城市轨道交通网络中的站级客流受交通网络拓扑结构的支配。以图1所示的网络为例,a站的交通状况与c站的相关性大于b站,同样,d站的交通状况与e站的相关性大于f站,因为空间相关性是基于网络的距离,而不是基于欧氏距离。
图1 轨道交通网络中客流的空间依赖性
(2)时间依赖性:车站客流受时间特征的影响,包括时间自相关性、周期性和趋势性。例如,早上8点是交通高峰会影响到上午9点。此外,早高峰期间的交通情况在连续工作日也呈现类似的趋势。此外,由于季节原因或经济、政策等宏观因素的影响,交通模式可能呈现逐渐增加或减少的趋势。
(3)其他潜在因素驱动的站间相关性:除了以基础网络为主导的车站间的空间相关性外,车站之间还可以通过静态和动态等多种潜在因素进行相互关联。静态因素可以是车站的网络结构特征、运营信息和台站的功能。其他可达站点在历史时间步长的动态客流模式是一种动态因素。以图2中的网络为例,除了时间相关性(绿色箭头)和静态站间相关性(蓝色箭头)外,我们还可以观察到动态站间相关性(橙色箭头)。动态站间相关性表明了节点a与其在下一个时间步长的可访问节点之间的跨站间和时间维度的影响。由于静态站间相关性,网络中的每个节点可以在同一时间步长影响其可访问节点。同时,由于时间相关性,每个节点在下一个时间步也会影响自己。此外,由于站间的动态相关性,每个节点甚至可以在下一个时间步影响其可访问的节点,如图2所示。车站间动态相关性是客流沿车站和时间维度同时演变的动态模式的结果。
图2 节点a在网络中的影响
(4)外生因素:如公共假期、工作日、天气和重大事件都可能影响客流。例如,国庆黄金周期间的客流量远远大于正常工作日,并且由于不同日期的出行目的不同(如通勤和非通勤出行),工作日的区分对客流量产生了影响。此外,台风等极端天气可能会大大减少客流量。
3.3 研究贡献
作者提出了一种创新的深度学习方法,称为多图卷积-循环神经网络(MGC-RNN),该方法在客流短期预测中考虑了时空依赖性和静态和动态因素同时测量的复杂站间相关性。具体来说,生成了多个图(包括静态和动态)来分别表示由不同因素驱动的站间相关性。然后应用多个图卷积网络提取每个图的相关信息,然后对提取的信息进行加权融合。本文的贡献有四个方面:
1、生成多个编码空间和异构站间相关性的图。通过这种方式,除了对基础交通网络的时空依赖关系外,还可以提取由站点特征(例如,相似的交通流模式、功能和网络结构特征)驱动的潜在相关性。此外,多图的多维邻接矩阵可以很好地表示各种相关信息。
2、由于与客流模式相关的车站间相关性是时变的,因此考虑了车站间相关性的时间动态。更具体地说,站间相关性可能沿着时间维度变化。
3、通过序列到序列(seq2seq)架构,城市轨道交通网络中所有站点的进站客流和出站客流可以提前多个时间步长进行整体预测。
4 模型算法
本文旨在基于历史客流信息和网络距离、网络结构、运营信息、站点局部功能等可用因素,对城市轨道交通网络中某站点近期内的客流流入和流出进行综合预测。相关符号的含义如表1。
表1 本文的符号含义
4.1 问题定义
4.1.1 不同角度生成的多图
轨道交通网络图记为G(V, E, M),其中表示公交网络中代表站点的节点集合,N表示站点个数。表示节点i到j的一组边,i, j∈V,表示节点i与j的相关性。表示邻接矩阵,表示两个相关节点的权值。权重越大,两个站点之间的相关性越高。该模型能够根据站间相关性的不同角度合并多个图。在本研究中,我们包括网络距离图G1、兴趣点(POI)相关图G2、网络结构相关图G3、运营信息相关图G4和t时刻近期相关图G5t。我们将每个图对应的网络距离邻接矩阵、POI相关邻接矩阵、网络结构相关邻接矩阵和运营信息相关邻接矩阵分别表示为。由于考虑站间动态相关性,所以近期相关邻接矩阵是时变的,记为t时刻的近期流量相关邻接矩阵。
4.1.2 历史进站/出站客流序列
交通网络上的客流随时间动态变化。记为t时刻网络各站的,其中S表示各站的客流类型(即S=2,分别表示流入和流出)。给定输入序列长度为l,历史流入和流出序列可表示为。
4.1.3 外生因素
(1)星期几:使用dt表示的分类变量来表示星期几。dt表示一周中每一天的不同属性。如果它属于一周的第r天,那么:
(2)节假日:还将另一个虚拟变量ht表示为假日或非假日,以区分它是否为假日(包括相邻的周末)。
(3)一天的时段:作者使用另一个用ot表示的分类变量来表示小时数据。它捕获了一天中每个小时之间的不同属性。需要注意的是,我们只考虑地铁一天的开放时间,如2013年深圳地铁5条线路的开放时间都是6:30-23:00,所以每天的开放时间有17个小时。如果t属于一天中的第s个小时,那么:
(4)天气:天气变量有3个维度,包括第t个时间间隔内的8种天气状况、温度和风速,记为。第一个维度是区分晴、晴、雾、多云、小雨、阵雨、雷暴和阴天八种天气条件的分类向量,最后两位数字是分别表示温度和风速的数值向量。
4.1.4 问题定义:给定5个生成图以及历史观察信息和已知信息,预测。
4.2 模型框架
下图展示了所提框架的总体流程,包括六个部分:原始数据、特征工程、输入层、图卷积层、LSTM_编码器-解码器和输出层。首先,原始数据包括站点之间的邻接度和行程时间,以及站点的特征包括POI信息、网络结构、运营信息以及历史流入和流出信息输入到框架中,然后对原始数据进行特征工程处理,利用站台特征,通过基于稀疏的重构模型计算不同邻接矩阵,如图输入3-输入6所示,分别用M2、M3、M4、M5表示。输入2,利用站点间的邻接性和行程时间信息生成网络距离邻接矩阵M1,其中权值由高斯核函数计算。输入1为历史流入和流出序列,序列长度为l,其中YT的维数为N×S。由于M1, M2, M3, M4是静态信息,需要重复它们l次,使它们与其他输入序列,即输入1和输入6,成为一个等长的序列。输入6为近期流量相关邻接矩阵序列,如前所述,最优重构系数矩阵M5是时变的,因此它们自然构成一个序列。最近流量相关邻接矩阵的序列保证了站间相关性的时间动态考虑。图卷积层,对于序列中的每一个时间步长,将每个时间步长的每个流入和流出的邻接矩阵作为图的拓扑结构和节点特征,然后对所有这些输入图进行5个图卷积算子,然后使用自定义的加权融合层对5个图的输出进行合并,这里的权值是可学习的。通过这种方式,我们提取了基于网络的站点之间的空间依赖关系以及静态和动态站点间的相关性。然后通过平面化和全连接层,我们将每个时间步的输出连接起来,并将其重塑为LSTM网络的输入,这里LSTM输入的大小为[l, N × S]。希望进行多步预测,因此采用了Seq2Seq结构之一,即LSTM-encoder-decoder结构。有四个并行结构用于建模分类外生因素(即星期、假日信息、小时和天气条件),其中每个结构都有两层,第一层作为嵌入层,以保持输入向量的大小远小于巨大的单热编码向量。第二层是全连接层。由于风速和温度是数值向量,我们将使用全连接层直接处理,而不进行嵌入。然后将外生因子单元的输出与LSTM-encoder-decoder结构的输出合并(添加操作)。最后,可以看到我们输出p步输出,。
图3 模型框架图
4.3 多图卷积
为了完全编码站点之间的关系,生成了包含异构空间和站点间相关性的多个图,并在所提出的神经网络模型中对多个图使用了多个并行图卷积算子。
4.3.1 多图生成
(1)网络距离图G1:实在实践中,在地铁网络中,一个车站与另一个车站是通过铁路连接的,因此基于欧几里得的距离不能反映两个车站之间的实际距离。该研究使用基于网络的距离来测量空间连通性,而不是基于欧几里得的距离。同时,考虑到乘客的实际出行成本,使用两站之间的平均出行时间作为基于网络的距离。权重计算如下所示。
其中σ是距离的标准差。
(2)POI关联性图G2:站点的功能可以通过站点周围的POI信息来衡量。
(3)网络结构关联性图G3:网络结构包括作为地铁网络节点的站点的程度和间隔,以及站点开通的天数,以及每个站点的空间特征:到市中心的距离。
(4)运营信息关联性图G4:具有类似运营模式的车站也可以相互关联。
(5)近期客流关联性图G5:具有相似交通模式的车站也可以相互关联。
4.3.2 图卷积网络:在本文提出的MGC-RNN模型中,采用并行GCNs从多个图的多个方面提取空间相关性和站间相关性。GCN的思想是借助图论在拓扑图上实现卷积运算。以分层传播规则的简单形式为例:
4.3.3 多图卷积输出的融合:站间相关性可能受到多个方面(即多个图)的影响,其程度可能不同。因此,在模型中采用的加权融合方法,其中的加权权重为可学习参数:
4.4 LSTM-Encoder-Decoder
在本研究中,进行了多步的客流预测,因为它可以为运营商和乘客提供多个时间步的预测,使他们有更多的时间做出反应和采取行动。在研究中,Seq2Seq架构被用于处理多步骤预测,如下图所示。
图4 LSTM-Encoder-Decoder结构图
4.5 损失函数
均方误差(MSE)和平均绝对误差(MAE)是最常用的回归损失函数。MSE更适合学习数据集中的异常值,另一方面,MAE更适合忽略异常值。然而,使用MAE作为神经网络训练的损失函数的缺点是它的梯度一直很大,这可能导致在使用梯度下降训练结束时丢失最小值。此外,使用MSE的模型将使预测偏向于异常值。在某些情况下,看起来像异常值的数据不会受到干扰,而且这些点不应该得到高优先级。在这种情况下,Huber损失非常有用,因为它在最小值周围弯曲,这降低了梯度,并且它比MSE对异常值更健壮。因此,Huber损失是MSE和MAE的结合。Huber损失定义为:
其中δ是定义MAE和MSE范围的超参数。当δ→0时,Huber损失接近MSE,当δ→∞时,Huber损失接近MAE。手动调整了这里的δ值。
这样,MGC-RNN就可以按照以下优化目标进行训练:
式中为MGC-RNN的所有可学习参数。
5 案例分析
5.1 数据集
5.1.1 客流数据集:该客流数据集来自中国深圳地铁公司的自动售票(AFC)系统,时间跨度为2013年9月10日至11月11日的63天。确定分析间隔为15分钟,为了减少客流数据振荡,使用一个小时的滚动窗口来移动汇总15分钟的流入和流出数据。这样,我们就可以得到每15分钟间隔内最近一小时的流入/流出。
5.1.2 POI和网络结构数据集:收集POI相关数据之前,关键的第一步是评估到地铁站的步行距离,即行人集水区(Pedestrian Catchment Areas, PCA)的大小,旨在确定数据收集的范围。一般假设大中城市的平均友好步行距离为500m,我们也将深圳各地铁站PCA的距离定义为500m。所有PCA内的POI数据均在百度地图上通过API采集,POI数据由站点附近的居住、娱乐、服务、商业、教育和办公室组成。网络结构数据包括地铁网络节点的度中心性(degree centrality)和间中心性(betweenness centrality)、站点开通天数和到市中心的距离。根据度中心性和中间中心性的定义,结合深圳地铁网络的实际拓扑结构计算了度中心性和中间中心性。假设影响站点客流的POI相关数据和网络结构信息如下表所示。
表2 POI数据和网络结构信息
5.1.3 运营信息:地铁线路在高峰时段和非高峰时段的行车信息被视为每个地铁站的运营特征。深圳地铁各条线路的车头距见下表。注意,中转站以车头距较小的作为其车头距。最后,对于天气因素,从天旗网站上收集深圳的历史天气信息。我们收集的天气信息每小时取一个值,因此我们需要将每小时的天气信息重复四次,以使其与其他序列的长度相同(间隔为15分钟)。
表3 运营信息
5.2 数据预处理和设置
5.2.1 数据处理:时间序列不同于传统的分类和回归预测建模问题。当一个时间序列是平稳的,它可以更容易地建模。统计建模方法假设或要求时间序列平稳才能有效。非平稳时间序列的观测结果显示季节效应、趋势和其他依赖于时间指数的结构。经典的时间序列分析和预测方法关注的是通过识别和去除趋势和去除非平稳时间序列数据来使其平稳。同样,也考虑在将数据输入深度学习模型之前从数据中去除季节性和趋势效应,看看它是否能使模型训练更容易,表现更好。首先,对数变换使数据线性化和平滑化,所以对原始数据进行对数变换,由于原始数据为零,我们对它们加1,使对数可计算。此外,差分使数据平稳,因为它从数据中去除时间序列成分。一阶差分只去掉趋势,不去掉季节性。对比几个阶差的结果,数据没有明显的趋势,取第63阶差去除季节性,因为数据在lag=63处具有季节性,即一天有63个时间步。在实验中,我们将2013年10月9日至2013年11月5日(56天,3528个时隙)经过对数和差分变换后的客流数据作为训练数据,剩下的7天(441个时隙)作为测试数据。此外,数据准备涉及在训练神经网络模型之前使用归一化等技术来重新调整输入和输出变量。Min-Max归一化保留了原始分布的形状,并且不会降低异常值的重要性。因此,我们使用训练数据训练Min-Max标量,并使用它将经过对数和差分变换的客流数据转换为[0,1]尺度。预测完成后,对预测值的差值和对数变换进行反归一化和反转,用于评价。
5.2.2 评估指标:判断模型的预测效果,采用平均绝对误差(MAE)、均方根误差(RMSE)和平均绝对百分比误差(sMAPE)来量化预测结果的精度,误差计算如下:
5.3 结果与讨论
5.3.1 多图邻接矩阵权值的可视化:
首先,为了更好地理解基于稀疏重构模型和高斯核函数计算的多图邻接矩阵的合理性,将深圳地铁的邻接矩阵M1、M2、M3、M4和M5t的权重通过基于图的关联和热图两种方式可视化。下图5和图6分别以基于地图的关联图和热图的形式展示了深圳地铁四个静态邻接矩阵M1、M2、M3、M4的可视化。对于动态邻接矩阵M5 t,最近的流量相关权重将随时间变化。选择工作日(2013/09/10(星期二))和周末(2013/09/14(星期六))的早高峰(7:00-7:15)和晚高峰(18:00-18:15)来可视化权重(如图6和图7所示)。根据图6和图7,我们可以观察到,一些权重较高的边随着时间的推移而变化,而一些权重一直较高的边。
图5 图的可视化
图6 不同站点间的关联性
图7 不同时段的站间相关性
5.3.2 多图的性能分析:
此外,为了观察多图对提取多方面特征的效果,我们还构造了一个仅图的模型,即表示公交网络原始拓扑的网络距离图。该模型用GC-RNN表示,并与MGC-RNN进行比较。
表4 不同图的性能比较
5.3.3 与其他预测方法的比较:未来评估所提出模型的有效性,将MGC-RNN模型的性能与以下基线模型进行比较:HA、ARIMA、VAR、LASSO、LSTM-encoder-decoder、CNN-LSM-encoder-decoder、ConvLSTM-encoder-decoder。在实验中,除HA模型外,输入的流入和流出数据通过对数和差分变换以及Min-Max归一化进行转换。表7给出了最佳MGC-RNN模型(即包含网络距离、网络结构和近期流量相关图3张图,不考虑外生因素)与HA、ARIMA、VAR、LASSO、LSTM_encoder-decoder、cnnlstm_encoder -decoder、ConvLSTM_encoder-decoder模型等其他基线方法在客流预测中的预测性能。由表5可以看出,结果最好的是MGC-RNN,第二好的是LSTM编码器-解码器,说明通过多次图卷积提取站间相关性的多角度,可以提高客流短期预测的预测精度。
表5 基准模型性能比较
6 结论
在本文中,作者提出了一种新的深度学习方法,称为多图卷积-循环神经网络(MGC-RNN),以考虑在短期客流预测中同时测量静态和动态因素的时空依赖性和复杂的站间相关性。实验发现,网络距离、网络结构和近期客流模式驱动下的站间客流预测是影响客流预测的重要因素。外生因素包括星期和假日信息不能帮助提高预测精度。此外,LSTM-encoder-decoder的结构不仅可以很好地捕获时间依赖性,而且可以准确地在每个预测步骤进行预测。对于四步预测,模型不存在误差传播,这表明在多步预测中,Seq2Seq架构与传统递归多步预测策略相比具有很强的优势。最重要的是,提出的深度学习框架展示了以高精度提前多步预测短期客流的能力。此外,所提出的模型结构有望具有足够的灵活性,以处理几个类似的时空预测任务,例如其他交通系统的交通状态预测、传染病预测和天气条件预测等。在实际场景中,所提出的框架可以提供客流动态的多个视图,以进行精细预测。具体而言,通过整合各种类型的站间相关性、时间依赖性和外生因素,该框架展示了在大数据环境中进行多源异构数据融合的可能性。在未来,将尝试在模型中寻找更多的外生因素,以帮助捕捉客流的异常模式,在不确定条件下的客流预测还有待进一步研究。
Attention
欢迎关注微信公众号《当交通遇上机器学习》!如果你和我一样是轨道交通、道路交通、城市规划相关领域的,也可以加微信:Dr_JinleiZhang,备注“进群”,加入交通大数据交流群!希望我们共同进步!