Abstract:
通过影响力最大化的过程来识别对社交网络中的产品采用或信息利用做出重大贡献的用户。社交网络的指数增长给这些网络的分析带来了一些挑战。现有文献非常重视对结构属性进行建模,而忽略了用户与其社会行为之间的关系。对于社会行为,本文将影响力最大化任务并行化。为了最大化社交网络中的影响力,提出了一种具有并行社交行为的基于兴趣的算法。该算法能够识别社交网络中有影响力的用户。用户的交互行为与用户的兴趣一起被动态地加权为社交行为。这两个语义度量用于所提出的算法中。通过社区结构实现具有完美并行性的CPU架构的机器,计算出最佳的影响力节点集。这有助于减少执行时间并克服现实社交网络规模的挑战。与现有方案相比,所提出的算法提高了现实世界网络上的计算速度。
关键词:行为属性、CPU架构、并行算法、影响力分析、社交网络分析
1. Introduction
在过去的几年里,社交网络的用户数量以及每天的数据交换都呈爆炸性增长。信息可以快速到达大范围随着这些网络的人数快速增长[1]。存在多种分析该网络数据的方案,其中社会影响力分析是一种重要的方法。使用这种技术可以有效地利用大量的社交数据。政治运动、流行病爆发、新闻跟踪、营销设计以及具有高度影响力的网络的几个此类种子节点可以被识别用于多种实际应用[2]。代表小用户群的种子集是企业设计营销的目标,向他们的朋友圈做广告和推荐新产品,从而最大化产品用户群。在Covid-19和其他流行病爆发的情况下,社交网络可以帮助识别传染病及其影响,同时帮助政府采取控制措施[3]。
用户受到选举候选人通过社交网络传播意识和信息的影响,在政治方面投票给他们[4]。通过社交网络影响力最大化(IM)是一种新的口碑信息传播意识形态。在特定的传播模型中,消息可以到达的总用户数在具有特定用户数量的网络上最大化[5]。该用户集的识别被定义为影响力最大化问题。在传统的扩散模型下,IM 是 NP 困难的。线性阈值(LT)和独立级联(IC)模型用于捕获种子及其对其他用户的动态影响。由于高度依赖,任务并行化在社交网络中具有挑战性[6]。根据影响力的传播情况,可以利用社区检测策略对网络进行适当的划分。
2. Related Works
在社交网络分析中,发现具有重大影响力的有影响力的个体是一项重大挑战[7]。近年来,一些研究人员致力于解决影响力最大化(IM)问题。现有的关于 IM 问题的文献一般可以分为顺序算法和并行算法。节点影响能力的顺序确定是使用前一种算法来确定的[8]。在观察前n个节点的影响后,执行第(n+1)个节点选择。由于空间和时间复杂性高,在超大规模网络中,这些网络的利用给全局和集中控制带来了重大挑战。顺序算法是基于贪婪算法、基于网络节点拓扑定位并考虑影响最大化作为优化问题进行分类[9]。
在贪婪算法的情况下,可以通过将每一阶段迭代获得的最佳局部选择收敛到全局选择来计算影响元素[10]。使用这些算法基于蒙特卡罗模拟来估计边际影响的准确分布。然而,这是一个耗时的过程。对于用贪心解法求解 IM 问题,提供了超过 60% 近似保证的最优解[11]。尽管该解决方案很有效,但它提供了近似值,并且在大规模社交网络中的链接之间具有较小的传播概率。与简单的贪婪算法相比,使用成本有效的惰性前向(CELF)技术[4],节点影响力传播的总计算量减少了 700 倍。通过称为 CELF++ 的改进 CELF 算法,避免了不必要的边际增益重新计算,提供了更生动、更好的评估。
贪婪算法 - 实用分区和播种 (PrPaS),专注于最大化通常中等的社交网络影响。另一种可扩展且快速的贪婪算法,贪婪状态机(SMG)充当单个状态机,同时记录最终状态以及特定节点的影响传播值[12]。主导竞争影响力最大化 (DCIM) 算法与 CELF 相结合,在大规模网络中展现出高速度。最大似然、启发式聚类、初始多传播节点选择(IMSN)、度距离中心性、k-壳中心性和度折扣中心性度量用于识别有影响力的节点[13]。 H 指数、聚类系数、同伴行为和度中心性因子是用于衡量节点影响力的重要局部指标。
3. Proposed Work
为了最大化社交网络中的影响力,提出了一种具有并行社交行为的基于兴趣的算法。该算法能够识别社交网络中有影响力的用户。为了解决社交网络上有影响力的用户的识别问题,利用了完整的CPU架构,以及网络语义和结构的结合[14]。用户的交互行为与用户的兴趣一起被动态地加权为社交行为。这两个语义指标在所提出的算法中使用。通过社区结构实现具有完美并行性的CPU架构的机器,计算出最佳的影响力节点集。这有助于减少执行时间并克服现实社交网络规模的挑战。影响力估计和影响力节点生成是该模型的两个主要阶段。分区图在每个节点处应用页面排名来计算模块串联操作的权重,如图1所示。
为了计算影响力,基于用户兴趣和社交行为的社交行为与第一个模块中提出的算法相集成。每个用户的影响力是通过页面排名算法来估计的。在大图中,与基于度的中心性等其他工具相比,页面排名算法的排名分辨率更高。大规模网络问题可以通过并行计算页面排名来克服[15]。在页面排名的计算中观察到较高的数据依赖度,这是一个重大障碍。其他节点排名的估计对于计算节点排名至关重要。该算法基于连通结构,利用划分图原理来克服估计节点等级的问题。
4. Results and Discussion
使用五种不同的算法来比较所提出算法的效率。选择的五种算法包括corenes中心性和k-sell类型的最新算法、页面排名和度类型的经典算法、并行模型、串行模型的并行版本以及基于社区检测和启发式策略的贪心算法。通过多样化的比较证明了该算法的优越性。使用 64GB 内存、基于 3 核 Intel 处理器的 64 位 Windows PC 来执行所有算法。 Java语言用于实现所提出的算法以及现有方案。
图2提供了影响力在特定网络上传播的实验结果,该网络的规模从千到百万用户不等。测试平台的内存大小限制为64GB。使用影响广度优先搜索树概念可以从候选节点中有效地确定种子节点。该模型以空队列中的黑色顶点开始。从队列中提取第一个顶点时,所有未访问的邻居都会被访问并包含在队列中。距离数组存储每个顶点的距离从它的节点。最大似然影响最大化 (MLIM)、并行、线性规划 (LP)、coreness、混合整数非线性规划 (MINP)、BienstockZuckerberg (BZ)、混合整数规划 (MIP)、基于社会行动的影响力最大化 (SAIM)、取证基于调查(FBI)的算法等可以与本文提出的算法进行信息传播速度和效率的比较。通过严格观察,SAIM 方案中可以观察到更长的黑色路径和更相似的种子候选。
分析了所提出算法的运行时复杂度,并与现有算法进行了比较。图 3 展示了所提出的算法在多个数据集和不同网络上的运行时间比较。从该图像中可以清楚地观察到所提出的算法在时间复杂度方面的效率。通过插入带有元编程表达式(例如用于创建并行算法的 API OpenMP)的源代码,可以促进并行性。所提出的模型使用并行计算来独立估计社区中每个节点的影响力,从而实现了有竞争力的计算效率。在不同规模的各种社交网络上,所提出的算法以最短的执行时间首先完成,而不影响结果。 Page Rank 算法被发现成本高昂,影响了计算效率系统。在所提出的算法中,可以对并行缩减、并行扫描、并行排序和此类有效基元进行变换,以显着提高计算效率。对于多CPU核,并行算法的加速增长因子如图4所示。随着CPU核数量的增加,加速因子呈次线性增长。
所提出的算法使用 Higgs 和微博网络数据集证明了性能的提高。与使用较小内存的算法相比,所提出的算法的执行时间和影响范围更高。与其他算法相比,在 Twitter 数据集上使用某些语义属性时,时间消耗显着减少。为了识别有影响力的节点,并行性需要最少的努力以及并行算法的其他显着优点。在大规模网络中,应用并行性的概念来探索其操作。根据实验结果,在内存利用率和时间消耗方面,由于并行 CPU 以及加速的改进,有显着的改善。为了识别最有影响力的节点,传统的基于并行语义的方案利用了社会语义。然而,由于社交网络具有高度的数据依赖性,并且需要加大隐私保护的力度,因此也面临着一些缺点。
5. Conclusion
为了最大化社交网络的影响力,提出了一种具有并行社交行为的基于兴趣的算法。在初始阶段设计新颖的并行框架,通过排除影响较小的节点来选择潜在的候选节点。图社区分解和采样方案构成了并行性的基础。进一步地,动态加权的社交行为以及用户兴趣是下一阶段呈现的社交行为的语义属性。个体从相似邻居处接收到的社交行为可以通过所提出的模型来区分。使用影响广度优先搜索树概念可以从候选节点中有效地确定种子节点。使用这种技术可以确保信息的快速传播。所提出的算法速度极快,需要更少的内存,时间效率高,并且克服了现有算法中的权衡。未来的工作重点是在大型网络中结合并行性实现剪枝算法。网络在时间、社会关系、社会行为和社区变化方面的动态演化也被建议通过自适应算法来解决。