Improving IP Geolocation with Target-Centric IP Graph (Student Abstract)

ABSTRACT

准确的IP地理定位对于位置感知的应用程序是必不可少的。虽然基于以路由器为中心(router-centric )的IP图的最新进展被认为是前沿的,但一个挑战仍然存在:稀疏IP图的流行(14.24%,少于10个节点,9.73%孤立)限制了图的学习。为了缓解这个问题,我们将目标主机(target host)指定为中心节点,并聚合多个最后跳路由器(multiple last-hop routers)来构建以目标为中心的IP图,而不是像以前的工作那样仅仅依赖于具有最小的最后跳延迟的路由器。在三个真实数据集上的实验表明,与现有的基线相比,我们的方法显著提高了地理位置的精度。

Introduction

许多独立于客户端的IP地理定位方法已经被提出来估计地理位置。这些方法并不依赖于用户愿意共享他们的位置数据,而是使用替代技术来确定位置,而不需要直接从客户机中输入。最近,这一领域的前沿进展涉及到使用以路由器为中心的IP图的图神经网络(GNNs),以其利用丰富的周围信息的非凡能力而闻名(Wang等人2022;Tai等人2023)。然而,尽管实现了地理定位的准确性,但以路由器为中心的IP地理定位面临着一个挑战:稀疏IP图的流行限制了图学习的有效性。通过对数据集的分析,有14.24%的目标拥有少于10个邻居,其中9.73%是完全孤立的。

(Wang等人2022)Wang, Z.; Zhou, F.; Zeng, W.; Trajcevski, G.; Chunjing, X.; Yong, W.; and Kai, C. 2022. Connecting the Hosts: Street-Level IP Geolocation with Graph Neural Networks. In SIGKDD.

(Tai等人2023)Tai, W.; Chen, B.; Zhou, F.; Zhong, T.; Trajcevski, G.; Wang, Y.; and Chen, K. 2023. TrustGeo: Uncertainty-Aware Dynamic Graph Learning for Trustworthy IP Geolocation. In  SIGKDD.

在这项工作中,我们提出了一个简单但有效的图富集方法(graph enrichment method来解决上述挑战。具体来说,我们将目标主机指定为中心节点,并聚合多个最后跳路由器来构建以目标为中心的(target-centric,TC)IP图,而不是像之前的工作那样仅仅依赖于最后跳延迟最小的路由器。这种直接的修改大大将隔离节点(isolated nodes的比例从9.73%降低到4.46%,将稀疏度(sparsity ratio比从14.24%降低到8.64%,进一步提高了地理定位的精度(cf。表1)。实验结果表明,该方法可以有效地消除不必要的拓扑邻居(topological neighbors),同时保留了最相关和最关键的拓扑邻居(the most pertinent and critical ones)

 表1:与最近基线的性能比较。所有结果都以公里(km)为单位进行测量。

Method

Problem Definition.

问题定义。给定一组带有属性知识\left \{ X_{i} \right \}_{i=1}^{N}地标\left \{ l_{i} \right \}_{i=1}^{N}(从WHOIS网站提取的维度为6的数据),网络测量\left \{ m_{i} \right \}_{i=1}^{N}(24维的ping and traceroute data),和坐标\left \{ y_{i} \right \}_{i=1}^{N}(2维对应经度和纬度),我们的目标是预测目标IP的地理位置:

其中,\hat{y_{T}}=(\hat{lon_{T}},\hat{lat_{T}})\in R^{2}表示目标的估计位置\Theta表示NN参数。

Sparsity Investigation.

稀疏调查。为了研究邻居数量对地理定位性能的影响,我们有选择地掩码邻接矩阵中的节点来控制邻居计数。随后,我们应用了在(Tai et al. 2023)中提出的模型,并评估了其在相邻节点数量不同的IP图上的性能。我们观察到,随着邻居的数量从1到10的增加,距离误差迅速减少(cf。图3(a))。这一观察结果显示了基于gnn的地理定位方法的一个潜在局限性:有限数量的邻居地标将显著影响地理定位的精度。

(Tai等人2023)Tai, W.; Chen, B.; Zhou, F.; Zhong, T.; Trajcevski, G.; Wang, Y.; and Chen, K. 2023. TrustGeo: Uncertainty-Aware Dynamic Graph Learning for Trustworthy IP Geolocation. In  SIGKDD.

图3:稀疏性调查。(a)邻居数量的影响;(2)由路由器为中心的图到以目标为中心的图的稀疏性降低。

Learning on Target-Centric IP Graphs.

学习以目标为中心的IP图。与以往的工作不同(Wang et al. 2022;Tai et al. 2023)通过在路由器级聚类IP来缩小区域,我们将目标主机指定为中心节点,并聚合多个最后一跳路由器来构建以目标为中心的IP图。图1是一个以目标为中心的示例。请注意,这些路由器统计数据(及其连接的地标)是从跨越不同区域(spanning various regions)的四个战略定位(four strategically positioned)的探测主机( probing hosts)收集的跟踪器数据(traceroute data)中获得。

图1:从以路由器为中心到以目标为中心的IP图:上海中以(a)路由器为中心的地标分布;(b)以路由为中心的IP图;(c)以目标为中心的IP图其中不同的颜色表示与不同的最后一跳路由器的关联。

对于每个IP图G =(X,A),我们将节点特征定义为属性知识、网络度量和坐标的组合,总计32个维度(看前边Problem Definition。对于边缘权值(edge weights,我们采用了一种注意机制来动态学习地标与目标节点之间的相互作用,如下(Tai et al. 2023):

式中,𝑾1,𝑾2∈RR^{(d_{x}+d_{m})\times (d_{x}+d_{m})},𝒃,𝒗∈R^{(d_{x}+d_{m})}分别为可训练矩阵和向量。随后,我们应用一个GNN层来促进学习目标IP地址的表示。一旦得到最终的表示,我们就利用非线性层来估计目标IP的地理位置。我们将IP地理定位作为一个确定性的回归任务,并通过最小化估计位置\hat{y_{T}}和真实值y_{T}之间的均方误差(MSE)来优化模型。图2显示了TCGeo的细节。

图2:TCGeo架构概述: (a)处理数据收集和特征工程;(b)构建以目标为中心的IP图;(c)使用GNN进行地理定位。

Experiments Results

Datasets and Setup. 

数据集和设置。根据之前的工作(Wang et al. 2022;Tai等人,2023),我们在三个真实世界的IP地理定位数据集(纽约、洛杉矶和上海)上评估了我们的方法,这些数据集分别包含91,808、92,804和126,258个IP地址。在训练过程中,我们以70%的IP作为地标,30%作为目标IP。在测试过程中,我们将训练集作为地标,其他的作为目标ip。我们将纽约、洛杉矶数据集的学习率设置为0.002,上海数据集设置为0.001每一层的隐藏大小(除了最后一层)被固定为32

Baselines.

基线。我们将我们的方法与以下最先进的基线进行了比较,包括一种基于延迟(delay-based )的测量方法(Wang等2020)、一种属性学习(attribute learning)方法(Arik和Pfister 2021)和三种图形学习(graph learning )方法(Ding等2022;Wang等2022;Tai等2023)。

(Wang等2020)Wang, Y.; Zhu, H.; Wang, J.; Liu, J.; Wang, Y.; and Sun, L. 2020. XLBoost-Geo: An IP Geolocation System Based on Extreme Landmark Boosting. arXiv preprint arXiv:2010.13396.

(Arik和Pfister 2021)Arik, S. ¨O.; and Pfister, T. 2021. TabNet: Attentive Interpretable Tabular Learning. In AAAI, 6679–6687.

(Ding等2022)Ding, S.; Zhang, F.; Luo, X.; and Liu, F. 2022. GNN-Geo: A Graph Neural Network-based Fine-grained IP Geolocation Framework. arXiv preprint arXiv:2112.10767.

(Wang等2022)Wang, Z.; Zhou, F.; Zeng, W.; Trajcevski, G.; Chunjing, X.; Yong, W.; and Kai, C. 2022. Connecting the Hosts: Street-Level IP Geolocation with Graph Neural Networks. In SIGKDD.

(Tai等2023)Tai, W.; Chen, B.; Zhou, F.; Zhong, T.; Trajcevski, G.; Wang, Y.; and Chen, K. 2023. TrustGeo: Uncertainty-Aware Dynamic Graph Learning for Trustworthy IP Geolocation. In SIGKDD.

Sparsity Analysis.

稀疏性分析。我们探讨了不同邻居数量对地理定位性能的影响。如图3(a)所示,当邻居的数量超过10个时,TCGeo的性能没有显著的改善。因此,我们只对少于10个邻居的目标使用以目标为中心的IP图,对于其余的,我们坚持使用以路由器为中心的IP图。该策略可以在保持计算效率的同时,显著提高地理定位性能。在图3(b)中,我们演示了TCGeo在多大程度上缓解了三个数据集之间的图稀疏性问题。

图3:稀疏性调查。(a)邻居数量的影响;(2)由路由器为中心的图到以目标为中心的图的稀疏性降低。

Overall Performance.

整体性能。我们在三个数据集上的比较评估实验的结果总结在表1中,揭示了两个重要的发现: (1)基于图的IP地理定位方法优于其他方法,强调了利用上下文信息的重要性。(2)在相同的神经网络架构设计下,我们的方法优于TrustGeo,这与我们最初的动机一致,即集成更多的邻居可以有效地缓解图的稀疏性的问题。

 表1:与最近基线的性能比较。所有结果都以公里(km)为单位进行测量。

Acknowledgements

国家自然科学基金资助项目(No.62176043和No. 62072077)部分资助。

References

(Arik和Pfister 2021)Arik, S. ¨O.; and Pfister, T. 2021. TabNet: Attentive Interpretable Tabular Learning. In AAAI, 6679–6687.

(Ding等2022)Ding, S.; Zhang, F.; Luo, X.; and Liu, F. 2022. GNN-Geo: A Graph Neural Network-based Fine-grained IP Geolocation Framework. arXiv preprint arXiv:2112.10767.

(Tai等2023)Tai, W.; Chen, B.; Zhou, F.; Zhong, T.; Trajcevski, G.; Wang, Y.; and Chen, K. 2023. TrustGeo: Uncertainty-Aware Dynamic Graph Learning for Trustworthy IP Geolocation. In SIGKDD.

(Wang等2020)Wang, Y.; Zhu, H.; Wang, J.; Liu, J.; Wang, Y.; and Sun, L. 2020. XLBoost-Geo: An IP Geolocation System Based on Extreme Landmark Boosting. arXiv preprint arXiv:2010.13396.

(Wang等2022)Wang, Z.; Zhou, F.; Zeng, W.; Trajcevski, G.; Chunjing, X.; Yong, W.; and Kai, C. 2022. Connecting the Hosts: Street-Level IP Geolocation with Graph Neural Networks. In SIGKDD.​​​​​​​

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/244235.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

DockerCompose部署RabbitMQ集群

DockerCompose部署RabbitMQ集群 最近小黄在工作中正好需要部署RabbitMQ集群,借此来记录一下,也希望可以帮助到大家 前置条件 简单介绍一下咱们公司现有的条件以及想要达成的效果 服务器3台,3台都是属于一个专有网络中,也就是说3…

100V耐压 内置MOS ESOP8 40V输入 转5V 2.1A恒压输出

100V耐压内置MOS ESOP8 40V输入转5V 2.1A恒压输出 芯片测试数据如下图:

SAHI强化YOLOv5在小目标上的表现

文章目录 环境前言安装sahiyolov5检测sahi添加新的检测模型 环境 ubuntu 18.04 64bitsahi 0.8.4yolov5 5.0pytorch 1.7.1cu101 前言 目标检测和实例分割是迄今为止计算机视觉中最重要的应用领域,各种目标检测网络层出不穷,然而,小目标的检…

用23种设计模式打造一个cocos creator的游戏框架----(十六)亨元模式

1、模式标准 模式名称:亨元模式 模式分类:结构型 模式意图:运用共享技术有效地支持大量细粒度的对象 结构图: 适用于: 1、一个应用程序使用了大量的对象. 2、完全由于使用大量的对象,造成很大的存储开…

人工智能改变医疗保健:人工智能如何革命医学

人工智能(Artificial Intelligence, 简称AI)的快速发展正逐渐改变着我们的生活方式和社会结构。在医疗保健领域,AI的应用不仅提供了更准确、高效的诊断和治疗手段,还为医生和患者之间的交流提供了新的途径。本文将探讨人工智能如何…

java springboot+jsoup写一段爬虫脚本 将指定地址的 图片链接 文本 超链接地址存入自己的属性类对象中

首先 还是最基本的 要在 pom.xml 引入依赖 <dependency><groupId>org.jsoup</groupId><artifactId>jsoup</artifactId><version>1.14.1</version> </dependency>然后 我们可以在项目中创建一个属性类 我这里就叫 WebContent了…

到底什么是DevOps

DevOps不是一组工具&#xff0c;也不是一个特定的岗位。在我看来DevOps更像是一种软件开发文化&#xff0c;一种实现快速交付能力的手段。 DevOps 强调的是高效组织团队之间如何通过自动化的工具协作和沟通来完成软件的生命周期管理&#xff0c;从而更快、更频繁地交付更稳定的…

微信这个地方,收费了

大家好&#xff0c;我是小悟 我们都知道&#xff0c;微信企业类型小程序需要认证&#xff0c;现在微信个人小程序也需要认证了&#xff0c;账号逾期未完成微信认证&#xff0c;将影响账号“被搜索”能力。 这一要求&#xff0c;在很多人看来可能是一项不必要的规定。然而&…

数据结构之---- 图

数据结构之---- 图 什么是图&#xff1f; 图是一种非线性数据结构&#xff0c;由顶点和边组成。我们可以将图 &#x1d43a; 抽象地表示为一组顶点 &#x1d449; 和一组边 &#x1d438; 的集合。 以下示例展示了一个包含 5 个顶点和 7 条边的图。 如果将顶点看作节点&…

【全面解读】洁净室验收及检测设备、方法全介绍

洁净室相关概念 洁净室又可称作无尘室&#xff08;Cleanroom&#xff09;&#xff0c;通常用作专业工业生产或科学研究的一部分&#xff0c;包括制造药品&#xff0c;集成电路&#xff0c;CRT&#xff0c;LCD&#xff0c;OLED和microLED显示器等。洁净室的设计是为了保持极低水…

数据结构之---- 堆、建堆操作、Top‑K 问题

数据结构之---- 堆、建堆操作、Top‑K 问题 什么是堆&#xff1f; 堆是一种满足特定条件的完全二叉树 主要可分为两种类型&#xff1a; 大顶堆&#xff1a;任意节点的值 ≥ 其子节点的值。小顶堆&#xff1a;任意节点的值 ≤ 其子节点的值。 堆作为完全二叉树的一个特例&am…

闲人闲谈PS之四十八——非标定制企业BOM传输问题

惯例闲话&#xff1a;上个月&#xff0c;集团公司组织了一次信息化大会&#xff0c;邀请国内外10几位知名的院士嘉宾来助阵。能听这些站在知识顶端的大佬的讲座&#xff0c;受益匪浅。至少在当下数字化趋势之下&#xff0c;细分领域的发展势头&#xff0c;有了方向性的指点。很…

C++怎么快速提升实力?

C怎么快速提升实力&#xff1f; 在开始前我有一些资料&#xff0c;是我根据自己从业十年经验&#xff0c;熬夜搞了几个通宵&#xff0c;精心整理了一份「C的资料从专业入门到高级教程工具包」&#xff0c;点个关注&#xff0c;全部无偿共享给大家&#xff01;&#xff01;&…

什么是持续测试?为什么要持续测试?

测试是软件开发生命周期 (SDLC) 的重要组成部分。SDLC 的每个阶段都应包含测试&#xff0c;以获得更快的反馈并提高产品质量。 我们来聊聊持续测相关话题&#xff0c;如何从持续测试中获得更大的收益。 何谓持续测试 持续测试有助于在软件开发生命周期 (SDLC) 的所有阶段提供…

本地连锁门店经营可以借助系统实现哪些功能?

不少的连锁门店目前还是很基础的ERPPOS收银&#xff0c;其他的还是走传统的手工管理&#xff0c;大多连锁老板知道借助信息化系统可以帮助门店实现精细化管理&#xff0c;提高运营效率&#xff0c;降低成本&#xff0c;增强竞争力&#xff0c;但不知道怎么去做&#xff0c;能做…

快速搭建知识付费平台?我有才,为你提供一站式解决方案

在当今数字化时代&#xff0c;知识付费已经成为一种趋势&#xff0c;越来越多的人愿意为有价值的知识付费。然而&#xff0c;公共知识付费平台虽然内容丰富&#xff0c;但难以满足个人或企业个性化的需求和品牌打造。同时&#xff0c;开发和维护一个属于自己的知识付费平台需要…

《Java 已死、前端已凉》 我的评价是:中肯的

《Java 已死、前端已凉》 我的评价是&#xff1a;中肯的 如题所述 此次包含了前端、后端开发 以下为论述&#xff1a; 文章目录 前端后端当前环境附录&#xff1a;压缩字符串、大小端格式转换压缩字符串浮点数压缩Packed-ASCII字符串 大小端转换什么是大端和小端数据传输中的大…

vscode 文件目录栏缩进

一个好的开发IDE&#xff0c;一定是让人赏心悦目的&#xff0c;这个赏心悦目也一定是包含层级目录的清晰明了&#xff01;不能像感冒的鼻涕一样一擤一摊子&#xff01;就像。。。。嗯&#xff0c;算了&#xff0c;断子还是不讲了&#xff0c;怕有些妹子投诉 或发消息批评我。。…

c++原子变量

原子变量 概述 ​ C11提供了一个原子类型std::atomic<T>&#xff0c;通过这个原子类型管理的内部变量就可以称之为原子变量&#xff0c;我们可以给原子类型指定bool、char、int、long、指针等类型作为模板参数&#xff08;不支持浮点类型和复合类型&#xff09;。 ​ …

如何用gpt改写文章 (1) 神码ai

大家好&#xff0c;今天来聊聊如何用gpt改写文章 (1)&#xff0c;希望能给大家提供一点参考。 以下是针对论文重复率高的情况&#xff0c;提供一些修改建议和技巧&#xff1a; 如何用GPT改写文章 一、引言 随着人工智能技术的飞速发展&#xff0c;自然语言处理领域取得了重大突…