GMEL:基于地理上下文嵌入的OD流预测

1 文章信息

文章题为“Learning Geo-Contextual Embeddings for Commuting Flow Prediction”,是一篇发表于The Thirty-Seventh AAAI Conference on Artificial Intelligence (AAAI-20)的一篇论文。该论文主要针对交通中OD流预测任务,从地理上下文信息中捕获空间相关性,同时设置多任务学习,确保嵌入表示的有效性,提升模型性能。

2 摘要

基于基础设施和土地利用信息预测起讫点(Origin-Destination, OD)流量对城市规划和公共政策制定至关重要。然而,由于OD流的时空规律较为复杂,因此实现OD流的准确预测是一项具有挑战性的任务。大多数现有的基于机器学习的方法忽略了空间相关性,无法对附近区域的影响进行建模。为解决这些问题,文章提出了地理上下文多任务嵌入学习(GMEL)模型,该模型从地理上下文信息中捕获空间相关性,用于通勤流量预测。具体来说,我们首先构建了一个包含地理上下文信息的地理邻接网络。在此基础上,提出了一种基于图注意网络(GAT)框架的注意机制,用于捕获空间相关性,并将地理上下文信息编码到嵌入空间中。两个单独的服务贸易总协定被用来模拟供给和需求特征。为提高嵌入表示的有效性,文章使用了一个多任务学习框架来引入更强的限制,获得有效的嵌入表示,从而进行流量预测。最后,基于模型所学习的嵌入训练一个梯度增强机(gradient boosting machine),实现OD流预测。文章使用来自纽约市的真实数据集评估我们的模型,实验结果证明了文章提出的方法的有效性。本文的主要贡献如下:

1、文章提出了一个从地理上下文信息中捕获空间相关性的模型(GMEL),并基于图注意力网络将信息编码到嵌入空间中。

2、文章使用来自纽约市的真实世界数据集进行广泛的实验。结果表明GMEL的有效性。

3 基本概念

地理单元:文章将城市划分为N个地理单元76dfb220d98a67f51ae9738ab4b08807.png,例如街道等。

城市指标:城市指标是一个向量,表示地理单元的城市指标特征,描述了地理单元的基础设施和土地利用的汇总信息。

通勤旅行记录(OD)及问题定义:文章用787305d7c802f519fd7cf35ebaed3a5f.png表示通勤旅行记录,其中表示地理单元i和地理单元j之间的通勤流量,即所谓的OD流量。文章旨在利用历史通勤流量(或OD流量)预测未来的通勤流量(或OD流量)。

4 模型结构

86ef42de2fc34d1a448bcb75ff61968b.png

地理语境多任务嵌入学习器(Geo-contextual Multitask Embedding Learner, GMEL):

GMEL旨在从地理环境中捕获空间相关性。GMEL利用图注意网络将地理上下文信息编码到嵌入空间中。为提取蕴含在基础设施和土地使用中的供需特征,GMEL采用两个单独的GAT将地理上下文信息编码到两个不同的嵌入空间中。为了确保嵌入表示的有效性,GMEL采用了多任务学习框架,该框架施加了更强的限制,迫使嵌入封装有效表示,从而实现OD预测。

预测器:结合GMEL学习到的嵌入表示,文章使用GBM(gradient boosting machine)作为回归模型实现OD流域测。

GMEL旨在学习对城市地理单元进行有效嵌入,并对地理上下文信息进行编码。为了分别学习每个地理单元的供给和需求特征,该模型使用两个单独的GAT来编码这些信息。然后将生成的嵌入应用于双线性函数来预测流量。同时,这些嵌入也将应用于两个线性函数来预测地理单元的流入/流出。整体预测损失是三个任务损失的加权和,文章使用反向传播以端到端方式训练GMEL。模型的整体结构如下图所示。

55e468f3944ee9e53d5a390758c45077.png

图注意力网络(GAT):假设第l层中,节点i的状态为84d6a383b26df2b53bcf11a1e672b53c.png,同时地理单元i和地理单元j之间的边特征为0198dc8b1c9d8d1212bc380a18818ac9.png,GAT首先对所有向量进行线性变化,如下式所示。

9de7ec14bd7541670e54a573f6bbe788.png

其中,ba36aaa90e0ea05da31bbf9877a92cd4.png是可学习参数。进一步计算每个边的注意力得分,05e532e9150dfda080ea6d5629f71022.png是可学习参数。

6db035ef55c332791d2d751d92328826.png

进一步,将上述注意力得分通过softmax归一化,并进行汇总求得第l+1层,节点i的状态表示。其中,4a46b5e1bca473e751a1a50024c7c3ea.png是可学习参数。

3839ac642e8ac74e71128fa27f2e7ce6.png

12c85da74e2f6bc21e955468abb18c6d.png

供需特征建模:通勤流量(OD流量)可以被视为供给和需求之间的一种空间互动,文章假设流动是由起源地理单元的供给特征和目的地地理单元的需求特征决定的。文章使用两个单独的GAT网络分别对起点和终点的特征进行提取,并将不同结果进行汇总。

多任务学习:模型包括一个主任务和两个子任务,其中,主任务为预测通勤流量(OD流量),依据两个单独的GAT网络的输出,通过下式计算未来OD流。

ee2306558e107a15035f59ff3a6aba1d.png

对应的损失函数如下。

5dadd2600be5b72298ad764c626afc78.png

子任务为进站流和出站流的预测,文章将进出预测作为两个子任务,即预测每个地理单元的进出站总数。直觉上,通勤流量和进出流量是高度相关的,因此,这两个子任务将对GMEL的训练过程施加更强的限制。同样,分别依据两个GAT模型的输出,分别计算进站流和出站流,如下所示。

500d9bf3c1e161db241d00cde23596e3.png

对应损失函数如下。

8b1a004e3f2f1e9ccead9d7b0ea35b12.png

总损失函数为上述三个任务对应损失的加权求和,如下式所示。其中,不同任务的权重为超参数。

87d73d85cf1d62092edfdbe4bd4459d1.png

模型的训练算法如下所示。

5c2ab03c07d6d7bdacdd7607254c488d.png

5 实验

文章在纽约市的真实数据集上验证了所提出的模型,同时文章使用2010年纽约市人口普查区作为地理单位(总共2168个单位)。对于通勤行程和城市指标,文章使用了以下数据集和方法:(1)OD数据集:LODES,该数据集记录了工人的住所和工作地点,代表了稳定的通勤流量。这些流量被聚合成地理单元级流。在纽约市收集了3031641名通勤者和905837对始发目的地旅行。文章以6:2:2的比例将通勤数据随机分为训练、验证和测试数据集;(2)土地利用数据:PLUTO,该数据集记录了2015年纽约市的土地利用和基础设施信息;(3)OSRM,该方法用于测量人口普查区质心之间的旅行距离。实验结果如下所示。

c2a148258ef1fca8ba083ff7d1a45476.png

进一步,文章为说明利用空间相关性的有效性,绘制了残差图,如下图所示。这些残差图显示了预测和实际流入流量之间的差异,其中红色表示预测值低于真实值,蓝色表示预测值高于真实值,浅蓝色表示预测值和真实值基本一致。GMEL利用地理背景信息捕捉空间相关性,能够考虑到感兴趣区域的特征和附近区域的影响。

3df37dec78c7bc58d82e557bd0fddce9.png

此外,文章还对模型的参数进行分析,如下图所示。包括GAT的层数,嵌入的大小以及多任务学习的权重,如下图所示。值得一提的是,多任务学习权重的最优取值为(0.5,0.5)。

91385c64f6d2e32460ca8dc661d9febc.png

6 总结

本文研究了仅利用基础设施和土地利用信息预测通勤流量的问题,这是城市规划和公共政策制定中的一个基本问题。与传统的重力模型和最近提出的机器学习方法不同,文章提出使用地理上下文信息进行通勤流量预测。为此,文章提出了一种基于图注意网络的端到端嵌入学习框架,用于学习地理单元的地理上下文嵌入。然后将学习到的嵌入输入到梯度增强机器中进行预测。文章利用纽约市的真实数据集进行了广泛的实验。结果表明,引入地理环境信息可以大大提高预测的准确性,并且文章所提出的模型优于所有基线方法。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/164344.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【机器学习基础】正则化

🚀个人主页:为梦而生~ 关注我一起学习吧! 💡专栏:机器学习 欢迎订阅!后面的内容会越来越有意思~ ⭐特别提醒:针对机器学习,特别开始专栏:机器学习python实战 欢迎订阅&am…

鸿蒙:实现两个Page页面跳转

效果展示 这篇博文在《鸿蒙:从0到“Hello Harmony”》基础上实现两个Page页面跳转 1.构建第一个页面 第一个页面就是“Hello Harmony”,把文件名和显示内容都改一下,改成“FirstPage”,再添加一个“Next”按钮。 Entry Compone…

⑩⑥ 【MySQL】详解 触发器TRIGGER,协助 确保数据的完整性,日志记录,数据校验等操作。

个人简介:Java领域新星创作者;阿里云技术博主、星级博主、专家博主;正在Java学习的路上摸爬滚打,记录学习的过程~ 个人主页:.29.的博客 学习社区:进去逛一逛~ 触发器 ⑩⑥ 【MySQL】触发器详解1. 什么是触发…

在前端开发中,什么是CDN(Content Delivery Network)?它的作用是什么?

聚沙成塔每天进步一点点 ⭐ 专栏简介 前端入门之旅:探索Web开发的奇妙世界 欢迎来到前端入门之旅!感兴趣的可以订阅本专栏哦!这个专栏是为那些对Web开发感兴趣、刚刚踏入前端领域的朋友们量身打造的。无论你是完全的新手还是有一些基础的开发…

基于金鹰算法优化概率神经网络PNN的分类预测 - 附代码

基于金鹰算法优化概率神经网络PNN的分类预测 - 附代码 文章目录 基于金鹰算法优化概率神经网络PNN的分类预测 - 附代码1.PNN网络概述2.变压器故障诊街系统相关背景2.1 模型建立 3.基于金鹰优化的PNN网络5.测试结果6.参考文献7.Matlab代码 摘要:针对PNN神经网络的光滑…

牛客网刷题笔记三 寻找第K大+两数之和+合并两个排序的链表+用两个栈实现队列

算法题牛客网NC88 寻找第K大 题目: 思路就是做个排序,要求时间复杂度 O ( n log ⁡ n ) O(n\log n) O(nlogn),因此选用快排。代码: class Solution:def quickSort(self, a, start, end):if start > end:returnval a[start]…

测试老鸟总结,Web/APP与接口测试测试流程总结,避背黑锅...

目录:导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结(尾部小惊喜) 前言 1、web测试流程 …

集合框架面试题

一、集合容器的概述 1. 什么是集合 集合框架:用于存储数据的容器。 集合框架是为表示和操作集合而规定的一种统一的标准的体系结构。 任何集合框架都包含三大块内容: 对外的接口、接口的实现和对集合运算的算 法。 接口:表示集合的抽象数据…

量化交易:借助talib使用技术分析指标

什么是技术分析? 所谓股票的技术分析,是相对于基本面分析而言的。基本分析法着重于对一般经济情况以及各个公司的经营管理状况、行业动态等因素进行分析,以此来研究股票的价值,衡量股价的高低。而技术分析则是透过图表或技术指标…

低代码在ERP中的理解与应用:提升开发效率与业务灵活性

企业资源规划(ERP)指通过融合不同部门的信息和流程,提升企业效率、融洽运营的管理体系。ERP系统通过提供一套集成化应用程序,助力企业管理工作流程,包含选购、库存、销售、生产规划等。 低代码(Low-Code&a…

网页视频下载工具 iTubeGo mac中文版软件特色

iTubeGo YouTube Downloader mac是一款功能强大的YouTube视频下载工具。 iTubeGo YouTube Downloader mac软件特色 多种格式支持:iTubeGo YouTube Downloader可以将YouTube视频下载为多种常见的视频和音频格式,包括MP4、MP3、AVI、FLV、MOV、WMV等&…

基于猕猴Spike运动解码的不同解码方法性能对比

公开数据集中文版详细描述 参考前文:https://editor.csdn.net/md/?not_checkout1&spm1011.2124.3001.6192神经元Spike信号分析 参考前文:https://blog.csdn.net/qq_43811536/article/details/134359566?spm1001.2014.3001.5501神经元运动调制分析 …

心怀祖国放眼世界 爱国人士华国中应邀参加美国旧金山2023(APEC)峰会

据相关媒体美国旧金山报道:2023亚太经合组织(APEC)领导人非正式会议将于11月15日至17日在美国旧金山召开。11月11日,本年度APEC高级财政官员和部长会晤在旧金山率先启动,APEC CEO峰会将于11月14日至16日开幕。著名爱国人士、亚太一…

HR人才测评,提高招聘效率降低用人风险

随着社会的不断进步,越来越多的企业在人力资源管理中,引入人才测评工具。人才是构成一个企业的基础,是企业不断发展的保障,同时,人才也是一个企业的核心竞争力之一。所以,人才的素质对一个企业至关重要。现…

CICD 持续集成与持续交付(2)

目录 gitlab 部署 jenkins 部署 配置 实时触发 自动化构建docker镜像 通过ssh插件交付任务 添加jenkins节点 RBAC pipeline jenkins结合ansible参数化构建 安装ansible 新建gitlab项目 jenkins新建项目playbook gitlab 部署 虚拟机最小需求:4G内存 4核cpu 下载&…

MySQL锁

概述 介绍 锁是计算机协调多个进程或线程并发访问某一资源的机制,在数据库中,除传统的计算资源(CPU、IO)的争用除外,数据也是一种供许多用户共享的资源。保证数据并发访问的一致性、有效性是所有数据库必须解决的一个…

Halcon (4):如何开始自学

文章目录 文章专栏前言Halcon文档Halcon基础案例文档英语阅读建议 结论 文章专栏 Halcon开发 前言 在我完成上一篇代码,halcon基础窗口事件写完了之后,我已经基本掌握了如何写一个简单的halcon程序。后面我学习新的知识的时候感觉遇到了瓶颈。因为网上没…

pom.xml格式化快捷键

在软件开发和编程领域,"格式化"通常指的是将代码按照一定的规范和风格进行排列,以提高代码的可读性和维护性。格式化代码有助于使代码结构清晰、统一,并符合特定的编码规范。 格式化可以包括以下方面: 缩进&#xff1a…

直流电机干扰的产生-EMC和EMI

直流电机干扰的产生-EMC和EMI 干扰的产生电路滤波处理EMC处理措施 干扰的产生 带电刷的电动机,由于在电刷切换时,电动机线圈中的电流不能突变,当一路线圈通电断开时,会在该线圈的两端产生较高的反电动势,这个电动势会…

MongoDB随记

MongoDB 1、简单介绍2、基本术语3、shard分片概述背景架构路由功能chunk(数据分片)shard key(分片键值) 4、常用命令 1、简单介绍 MongoDB是一个分布式文件存储的数据库,介于关系数据库和非关系数据库之间&#xff0c…