ABSTRACT
准确的IP地理定位对于位置感知的应用程序是必不可少的。虽然基于以路由器为中心(router-centric )的IP图的最新进展被认为是前沿的,但一个挑战仍然存在:稀疏IP图的流行(14.24%,少于10个节点,9.73%孤立)限制了图的学习。为了缓解这个问题,我们将目标主机(target host)指定为中心节点,并聚合多个最后跳路由器(multiple last-hop routers)来构建以目标为中心的IP图,而不是像以前的工作那样仅仅依赖于具有最小的最后跳延迟的路由器。在三个真实数据集上的实验表明,与现有的基线相比,我们的方法显著提高了地理位置的精度。
Introduction
许多独立于客户端的IP地理定位方法已经被提出来估计地理位置。这些方法并不依赖于用户愿意共享他们的位置数据,而是使用替代技术来确定位置,而不需要直接从客户机中输入。最近,这一领域的前沿进展涉及到使用以路由器为中心的IP图的图神经网络(GNNs),以其利用丰富的周围信息的非凡能力而闻名(Wang等人2022;Tai等人2023)。然而,尽管实现了地理定位的准确性,但以路由器为中心的IP地理定位面临着一个挑战:稀疏IP图的流行限制了图学习的有效性。通过对数据集的分析,有14.24%的目标拥有少于10个邻居,其中9.73%是完全孤立的。
(Wang等人2022)Wang, Z.; Zhou, F.; Zeng, W.; Trajcevski, G.; Chunjing, X.; Yong, W.; and Kai, C. 2022. Connecting the Hosts: Street-Level IP Geolocation with Graph Neural Networks. In SIGKDD.
(Tai等人2023)Tai, W.; Chen, B.; Zhou, F.; Zhong, T.; Trajcevski, G.; Wang, Y.; and Chen, K. 2023. TrustGeo: Uncertainty-Aware Dynamic Graph Learning for Trustworthy IP Geolocation. In SIGKDD.
在这项工作中,我们提出了一个简单但有效的图富集方法(graph enrichment method)来解决上述挑战。具体来说,我们将目标主机指定为中心节点,并聚合多个最后跳路由器来构建以目标为中心的(target-centric,TC)IP图,而不是像之前的工作那样仅仅依赖于最后跳延迟最小的路由器。这种直接的修改大大将隔离节点(isolated nodes)的比例从9.73%降低到4.46%,将稀疏度(sparsity ratio)比从14.24%降低到8.64%,进一步提高了地理定位的精度(cf。表1)。实验结果表明,该方法可以有效地消除不必要的拓扑邻居(topological neighbors),同时保留了最相关和最关键的拓扑邻居(the most pertinent and critical ones)。
表1:与最近基线的性能比较。所有结果都以公里(km)为单位进行测量。
Method
Problem Definition.
问题定义。给定一组带有属性知识的地标(从WHOIS网站提取的维度为6的数据),网络测量(24维的ping and traceroute data),和坐标(2维对应经度和纬度),我们的目标是预测目标IP的地理位置:
其中,表示目标的估计位置,表示NN参数。
Sparsity Investigation.
稀疏调查。为了研究邻居数量对地理定位性能的影响,我们有选择地掩码邻接矩阵中的节点来控制邻居计数。随后,我们应用了在(Tai et al. 2023)中提出的模型,并评估了其在相邻节点数量不同的IP图上的性能。我们观察到,随着邻居的数量从1到10的增加,距离误差迅速减少(cf。图3(a))。这一观察结果显示了基于gnn的地理定位方法的一个潜在局限性:有限数量的邻居地标将显著影响地理定位的精度。
(Tai等人2023)Tai, W.; Chen, B.; Zhou, F.; Zhong, T.; Trajcevski, G.; Wang, Y.; and Chen, K. 2023. TrustGeo: Uncertainty-Aware Dynamic Graph Learning for Trustworthy IP Geolocation. In SIGKDD.
图3:稀疏性调查。(a)邻居数量的影响;(2)由路由器为中心的图到以目标为中心的图的稀疏性降低。
Learning on Target-Centric IP Graphs.
学习以目标为中心的IP图。与以往的工作不同(Wang et al. 2022;Tai et al. 2023)通过在路由器级聚类IP来缩小区域,我们将目标主机指定为中心节点,并聚合多个最后一跳路由器来构建以目标为中心的IP图。图1是一个以目标为中心的示例。请注意,这些路由器统计数据(及其连接的地标)是从跨越不同区域(spanning various regions)的四个战略定位(four strategically positioned)的探测主机( probing hosts)收集的跟踪器数据(traceroute data)中获得。
图1:从以路由器为中心到以目标为中心的IP图:上海中以(a)路由器为中心的地标分布;(b)以路由为中心的IP图;(c)以目标为中心的IP图,其中不同的颜色表示与不同的最后一跳路由器的关联。
对于每个IP图G =(X,A),我们将节点特征定义为属性知识、网络度量和坐标的组合,总计32个维度(看前边Problem Definition)。对于边缘权值(edge weights),我们采用了一种注意机制来动态学习地标与目标节点之间的相互作用,如下(Tai et al. 2023):
式中,𝑾1,𝑾2∈R,𝒃,𝒗∈分别为可训练矩阵和向量。随后,我们应用一个GNN层来促进学习目标IP地址的表示。一旦得到最终的表示,我们就利用非线性层来估计目标IP的地理位置。我们将IP地理定位作为一个确定性的回归任务,并通过最小化估计位置和真实值之间的均方误差(MSE)来优化模型。图2显示了TCGeo的细节。
图2:TCGeo架构概述: (a)处理数据收集和特征工程;(b)构建以目标为中心的IP图;(c)使用GNN进行地理定位。
Experiments Results
Datasets and Setup.
数据集和设置。根据之前的工作(Wang et al. 2022;Tai等人,2023),我们在三个真实世界的IP地理定位数据集(纽约、洛杉矶和上海)上评估了我们的方法,这些数据集分别包含91,808、92,804和126,258个IP地址。在训练过程中,我们以70%的IP作为地标,30%作为目标IP。在测试过程中,我们将训练集作为地标,其他的作为目标ip。我们将纽约、洛杉矶数据集的学习率设置为0.002,上海数据集设置为0.001。每一层的隐藏大小(除了最后一层)被固定为32。
Baselines.
基线。我们将我们的方法与以下最先进的基线进行了比较,包括一种基于延迟(delay-based )的测量方法(Wang等2020)、一种属性学习(attribute learning)方法(Arik和Pfister 2021)和三种图形学习(graph learning )方法(Ding等2022;Wang等2022;Tai等2023)。
(Wang等2020)Wang, Y.; Zhu, H.; Wang, J.; Liu, J.; Wang, Y.; and Sun, L. 2020. XLBoost-Geo: An IP Geolocation System Based on Extreme Landmark Boosting. arXiv preprint arXiv:2010.13396.
(Arik和Pfister 2021)Arik, S. ¨O.; and Pfister, T. 2021. TabNet: Attentive Interpretable Tabular Learning. In AAAI, 6679–6687.
(Ding等2022)Ding, S.; Zhang, F.; Luo, X.; and Liu, F. 2022. GNN-Geo: A Graph Neural Network-based Fine-grained IP Geolocation Framework. arXiv preprint arXiv:2112.10767.
(Wang等2022)Wang, Z.; Zhou, F.; Zeng, W.; Trajcevski, G.; Chunjing, X.; Yong, W.; and Kai, C. 2022. Connecting the Hosts: Street-Level IP Geolocation with Graph Neural Networks. In SIGKDD.
(Tai等2023)Tai, W.; Chen, B.; Zhou, F.; Zhong, T.; Trajcevski, G.; Wang, Y.; and Chen, K. 2023. TrustGeo: Uncertainty-Aware Dynamic Graph Learning for Trustworthy IP Geolocation. In SIGKDD.
Sparsity Analysis.
稀疏性分析。我们探讨了不同邻居数量对地理定位性能的影响。如图3(a)所示,当邻居的数量超过10个时,TCGeo的性能没有显著的改善。因此,我们只对少于10个邻居的目标使用以目标为中心的IP图,对于其余的,我们坚持使用以路由器为中心的IP图。该策略可以在保持计算效率的同时,显著提高地理定位性能。在图3(b)中,我们演示了TCGeo在多大程度上缓解了三个数据集之间的图稀疏性问题。
图3:稀疏性调查。(a)邻居数量的影响;(2)由路由器为中心的图到以目标为中心的图的稀疏性降低。
Overall Performance.
整体性能。我们在三个数据集上的比较评估实验的结果总结在表1中,揭示了两个重要的发现: (1)基于图的IP地理定位方法优于其他方法,强调了利用上下文信息的重要性。(2)在相同的神经网络架构设计下,我们的方法优于TrustGeo,这与我们最初的动机一致,即集成更多的邻居可以有效地缓解图的稀疏性的问题。
表1:与最近基线的性能比较。所有结果都以公里(km)为单位进行测量。
Acknowledgements
国家自然科学基金资助项目(No.62176043和No. 62072077)部分资助。
References
(Arik和Pfister 2021)Arik, S. ¨O.; and Pfister, T. 2021. TabNet: Attentive Interpretable Tabular Learning. In AAAI, 6679–6687.
(Ding等2022)Ding, S.; Zhang, F.; Luo, X.; and Liu, F. 2022. GNN-Geo: A Graph Neural Network-based Fine-grained IP Geolocation Framework. arXiv preprint arXiv:2112.10767.
(Tai等2023)Tai, W.; Chen, B.; Zhou, F.; Zhong, T.; Trajcevski, G.; Wang, Y.; and Chen, K. 2023. TrustGeo: Uncertainty-Aware Dynamic Graph Learning for Trustworthy IP Geolocation. In SIGKDD.
(Wang等2020)Wang, Y.; Zhu, H.; Wang, J.; Liu, J.; Wang, Y.; and Sun, L. 2020. XLBoost-Geo: An IP Geolocation System Based on Extreme Landmark Boosting. arXiv preprint arXiv:2010.13396.
(Wang等2022)Wang, Z.; Zhou, F.; Zeng, W.; Trajcevski, G.; Chunjing, X.; Yong, W.; and Kai, C. 2022. Connecting the Hosts: Street-Level IP Geolocation with Graph Neural Networks. In SIGKDD.