abstract
各种社交网络的出现产生了大量的数据。捕获、区分和过滤真假新闻的有效方法变得越来越重要,特别是在 COVID-19 大流行爆发之后。本研究对假新闻检测系统的图神经网络 (GNN) 的现状和挑战进行了多方面、系统的回顾,并概述了使用 GNN 实现假新闻检测系统的综合方法。此外,还从多个角度讨论了用于实现实用假新闻检测系统的基于 GNN 的先进技术。首先,我们介绍假新闻、假新闻检测和 GNN 的背景和概述。其次,我们提供了基于 GNN 分类法的假新闻检测分类法,并按类别审查和突出显示模型。随后,我们按类别比较这些方法的关键思想、优点和缺点。接下来,我们讨论假新闻检测和 GNN 可能面临的挑战。最后,我们提出了该领域的几个悬而未决的问题,并讨论了未来研究的潜在方向。我们相信,系统从业者和新手可以利用这篇综述,通过部署使用 GNN 的假新闻检测系统来克服当前的障碍并应对未来的情况。
1. Introduction
最近,社交网络导致了信息爆炸。社交网络已成为全世界人们的主要沟通渠道。然而,社交网络上发布的新闻的真实性往往无法确定。因此,使用社交网络是一把双刃剑。因此,如果从社交网络收到的消息是真实的,那将是有益的。反之,如果这条新闻是假的,就会产生很多不良后果,假新闻广泛传播时造成的损害程度是难以估量的。
假新闻是传播欺骗性内容或完全歪曲真实新闻文章的绝对创造性信息的来源[1]。假新闻的例子有很多。亨特等人。 [2]表明,2016年美国总统大选期间,克林顿支持者的活动受到顶级影响者的传统中间派和左倾新闻传播的影响,而特朗普支持者的运动受到顶级假新闻传播者动态的影响。此外,据报道,英国脱欧公投相关假新闻的传播引发了舆论操纵。最近,新冠肺炎疫情期间假新闻盛行。这些例子表明,假新闻在社交网络上的传播对许多领域产生了重大影响。在假新闻广泛传播之前及时发现并遏制假新闻是一项紧迫任务。因此,在过去的十年中,已经采用了许多方法来检测和防止假新闻的传播,其中基于图神经网络(GNN)的方法是最新的。
根据之前关于使用 GNN 进行假新闻检测的好处的研究结果,我们总结了使用 GNN 的一些主要理由如下。现有的假新闻检测方法几乎完全专注于模型中与内容、传播和社交背景相关的特征。 GNN 有望成为一个潜在的统一框架,用于结合内容、传播和基于社交情境的方法 [3]。假新闻传播者可以攻击基于机器学习的模型,因为这些模型强烈依赖于新闻文本。为了避免这个问题,有必要减少检测模型对新闻文本的依赖。基于 GNN 的模型可以在没有文本信息的情况下实现与现代方法相似或更高的性能 [4]。基于 GNN 的方法可以灵活地使用参数化随机游走和迭代聚合器来定义信息传播模式 [5]。图神经网络是一种新技术,专注于在图结构上使用深度学习算法[6]。在应用于假新闻检测系统之前,GNN 已成功应用于许多机器学习和自然语言处理相关的任务,例如对象检测 [7,8]、情感分析 [9,10] 和机器翻译 [11, 12]。通过深度学习改进卷积神经网络、循环神经网络和自动编码器,实现了众多 GNN 的快速发展[13]。社交网络上基于 GNN 的假新闻检测系统的快速发展可以归因于社交网络在用户数量、发布新闻量和用户交互方面的快速增长。因此,社交网络如果独立应用,自然会变成复杂的图结构,这对于之前基于机器学习和深度学习的假新闻检测算法来说是有问题的。造成这种现象的主要原因是图大小对节点数量以及不同数量的邻居节点的依赖性。因此,一些重要的运算(卷积)在图域中很难计算。此外,之前基于机器学习和深度学习的假新闻检测算法的主要假设是新闻条目是独立的。这种假设不适用于图数据,因为节点可以通过各种类型的关系(例如引用、交互和友谊)连接到其他节点。基于 GNN 的假新闻检测方法已经被开发出来。尽管已经取得了一些最先进的结果(见表1),但在我们进行这项研究时,还不存在完整的基于 GNN 的假新闻检测和预防系统。社交网络上的假新闻仍然是一个需要解决的重大挑战(第一个理由)。
表 1 描述了与使用基于 GNN 的方法相比传统方法的性能改进。
已经发表了各种假新闻检测的调查论文,例如[18-23]。我们简要总结相关工作如下:Vitaly Klyuev 等人。 [20]使用自然语言处理(NLP)和文本挖掘技术对基于语义的不同假新闻检测方法进行了调查。此外,作者还讨论了社交网络上的自动检查和机器人检测。与此同时,押川等人。 [21] 介绍了一项针对假新闻检测的调查,仅重点审查基于 NLP 的方法。柯林斯等人。 [18]介绍了假新闻的各种变体,并回顾了防止假新闻在社交网络上传播的最新趋势。舒等人。 [22]对各种类型的虚假信息、因素影响以及减少影响的方法进行了审查。汗等人。 [19] 提出了虚假新闻的变体,例如错误信息、谣言、点击诱饵和虚假信息。他们提供了一些假新闻变体检测方法的更详细的表示,而不限制基于 NLP 的方法。他们还介绍了可用的检测模型类型,例如基于知识的方法、事实检查方法和混合方法。此外,作者还介绍了防止假新闻及其变种的政府策略。马哈茂德等人。 [23]通过实施几种常用的机器学习和 GNN 方法来检测社交媒体上的假新闻并比较它们的性能,从而进行了比较分析。没有任何调查论文尝试使用最新技术(即基于 GNN 的方法)(第二个理由)对假新闻检测进行全面而彻底的概述。
以上两个理由促使我们进行这项调查。尽管不可避免地存在一些相似之处,但我们的调查与上述工作的不同之处在于,我们专注于使用最新的基于 GNN 的技术来描述、分析和讨论假新闻检测模型。我们相信,本文可以为新研究人员、新手和系统从业者在使用 GNN 提高假新闻检测系统的性能时克服当前障碍并形成未来方向提供重要和基础的参考。本文做出以下四个主要贡献。
• 我们提供迄今为止最全面的假新闻调查,包括相似的概念、特征、相关特征的类型、方法的类型和基准数据集。我们根据假新闻的特点重新定义了类似的概念。这项调查可以作为阐明、改进和提出不同假新闻检测方法的实用指南。
• 我们对现有类型的 GNN 模型进行了简要回顾。我们还对不同类型的模型进行了必要的比较,并总结了相应的算法。
• 我们介绍了用于假新闻检测系统的 GNN 模型的详细信息,例如模型管道、基准数据集和开源代码。这些细节提供了背景并指导经验丰富的开发人员为假新闻预防应用程序提出不同的 GNN。
• 我们介绍并讨论使用 GNN 模型检测和预防假新闻的开放问题。我们对每个问题进行全面分析,并提出有关模型深度和可扩展性权衡的未来研究方向。
本节阐述了该问题的合理性,并强调了我们进行这项调查的动机。本文其余部分的顺序如下。第 2 节介绍背景并概述假新闻、假新闻检测和 GNN。第 3 节介绍了用于进行审查的调查方法。第 4 节分析了纳入论文的一般信息。第 5 节对所选论文进行了分类和详细审查。随后,我们在第 6 节中按类别讨论了这些方法的比较、优点和缺点。接下来,在第 7 节中简要评估了假新闻和 GNN 可能面临的挑战。最后,我们确定了该领域的几个悬而未决的问题并讨论了潜在的问题第 8 节中的未来研究方向。
2. Background
2.1. Understanding fake news
什么是假新闻?新闻被理解为元信息,可以包括以下内容[24]:
• 来源:新闻出版商,例如作者、网站和社交网络。 • 标题:用简短的文字描述新闻的主要话题,以吸引读者的注意力。
• 正文内容:新闻的详细描述,包括亮点和发布者特征。
• 图像/视频:正文内容的一部分,提供视觉插图以简化新闻内容。
• 链接:其他新闻来源的链接。
“假新闻”被麦格理词典评为 2016 年年度词汇 [24]。假新闻受到相当大的关注受到研究者的关注,不同观点给出了不同的定义。在[24]中,作者将假新闻定义为“故意且可证实的虚假新闻文章”。奥尔科特和根茨科[2]对假新闻做了狭义的定义:“故意且可证实的虚假新闻文章,可能会误导读者”。在另一个定义中,作者将假新闻视为“在形式上模仿新闻媒体内容但在组织过程或意图上不模仿的捏造信息”[25]。在[26]中,作者考虑了各种形式的假新闻,例如虚假、误导或创造性新闻,包括传播信息的几个特征和属性。在[27]中,作者将假新闻广义定义为“虚假新闻”,将假新闻狭义定义为“新闻媒体故意发布的虚假新闻”。以前的假新闻检测方法中也采用了类似的定义[3,4,28,29]。
假新闻的特征:尽管存在不同的定义,但大多数假新闻具有以下共同特征。
• 回声室效应:回声室[30]可以广义地定义为关注对某一主题具有相同政治倾向或信念的用户意见的环境。这些观点通过与具有相似倾向和态度的其他用户的反复互动而得到强化。社会可信度[31]和频率启发式[31](即搜索符合现有评论的信息的趋势)可能是社交网络上出现回声室的原因[24,32–34]。当新闻信息量不足时,可以利用社会公信力来判断其真实性。但仍有不少人认为其可信并进行传播,导致大众普遍接受此类消息的可信性。当人们经常听到新闻时,频率启发就会形成,导致人们自然地认可该信息,即使它是假新闻。
• 欺骗意图[35]:这一特征是基于“没有人会无意中以新闻文章的形式产生不准确的信息,假新闻类型是故意创造来欺骗”的假设来识别的[25]。欺骗是由政治/意识形态或经济原因引发的[2,36–38]。然而,假新闻也可能出现并被传播以娱乐、娱乐,或者如[39]中所提议的,“挑衅”。
• 恶意账户:目前,社交网络上的新闻既来自真实的人,也来自虚幻的人。尽管假新闻是由非真人帐户创建和传播的,但仍有一些真人传播假新闻。主要为了传播假新闻而创建的帐户被称为恶意帐户[27]。恶意帐户分为三种主要类型:社交机器人、巨魔和机器人用户[24]。社交机器人是由计算机算法控制的社交网络帐户。当社交机器人主要设计用于传播有害信息并在创建和传播有害信息方面发挥重要作用时,该社交机器人被称为恶意帐户。假新闻[40]。该恶意帐户还可以自动发布新闻并与其他社交网络用户互动。巨魔是真实存在的人,他们扰乱在线社区以激发社交媒体用户的情感反应[24]。网络喷子的目的是通过激起社交网络用户的负面情绪来操纵信息来改变他人的观点[40]。因此,用户产生强烈的怀疑和不信任[24];他们会陷入一种迷茫的状态,分不清什么是真的,什么是假的。渐渐地,用户会怀疑真相并开始相信谎言和虚假信息。 Cyborg 用户是由真人创建的恶意帐户;然而,他们通过使用程序来维持活动。因此,赛博格更擅长传播虚假新闻[24]。
• 真实性:该特征旨在识别新闻是否属实[27]。事实陈述可以被证明是真或假。主观意见不被视为事实陈述。只有客观的意见才被视为事实陈述。事实陈述永远不会是错误的。当一个声明被发表时,如果它可以被反驳,那么它就不是一个事实声明[41]。非事实陈述是我们可以同意或不同意的陈述。换句话说,这个消息有时是错误的,有时是正确的,甚至是完全错误的。假新闻大多包含非事实陈述。
• 该信息是新闻:这个特征[27]反映了该信息是否是新闻。
根据假新闻的特点,我们对假新闻给出新的定义如下。 “假新闻”是指包含不实陈述的新闻,带有恶意账户,可能会引起回音室效应,意图误导公众。与假新闻相关的概念:存在关于假新闻的各种概念。利用假新闻的特点,我们可以重新定义这些概念来区分它们:
• 虚假新闻[42,43] 是指包含来自恶意帐户的非事实陈述的新闻,这些陈述可能会导致意图不明的回音室效应。
• 虚假信息[44]是包含恶意帐户的非事实陈述的新闻或非新闻,可能导致回音室效应,意图误导公众。
• 择优挑选[45]是包含恶意账户常见事实陈述的新闻或非新闻,可能会引起回音室效应,意图误导公众。
• 谣言[46]是包含来自恶意帐户的事实或非事实陈述的新闻或非新闻,可能会导致意图不明的回声室效应。
• 虚假信息是来自恶意帐户的非事实陈述的新闻或非新闻,可能导致回音室效应,意图误导公众。
• 操纵[47]是市场新闻,其中包含恶意账户的非事实陈述,可能导致回音室效应,意图误导公众。
• 欺骗性新闻[2,24,27] 是指包含来自恶意帐户的非事实陈述的新闻,这些陈述可能引起回音室效应,意图误导公众。
• 讽刺新闻[48] 是包含来自恶意帐户的事实或非事实陈述的新闻,可能会引起回音室效应,其目的是娱乐公众。
• 错误信息[33] 是包含来自恶意帐户的非事实陈述的新闻或非新闻,这些陈述可能会导致意图不明的回音室效应。
• Clickbait [49] 是包含来自恶意帐户的事实或非事实陈述的新闻或非新闻,可能导致回音室效应,意图误导公众。
• 虚假事实[50] 是未定义的信息(新闻或非新闻),由恶意账户的非事实陈述组成,可能导致回音室效应,意图误导公众。
• 宣传[48] 是带有偏见的信息(新闻或非新闻),包括来自恶意帐户的关于大多数政治事件的未定义陈述(事实或非事实),可能导致回音室效应,意图误导公众。
• 草率新闻[19] 是不可靠且未经证实的信息(新闻或非新闻),包括记者分享的未定义的陈述,可能导致回声室效应,意图误导公众。
2.2. Fake news detection
2.2.1. What is fake news detection?
与传统新闻媒体不同,假新闻主要利用基于内容的新闻特征来检测;对于社交媒体,基于社交情境的辅助功能可以帮助检测假新闻。因此,在[24]中,作者根据新闻的基于内容和上下文的特征提出了假新闻检测的正式定义。给定新闻文章a的n个用户之间的社交互动ε,假新闻检测的目标是预测a是否是假新闻的实例。该目标由预测函数 F : ε → {0, 1} 定义,使得:
在此,Shu 和 Sliva 将预测函数 F 定义为二元分类函数,因为假新闻检测包含来自发布者的关于实际新闻主题的扭曲信息(扭曲偏差)。根据媒体偏差理论[51],失真偏差通常被定义为二元分类。
使用上述假新闻检测的定义,在本文中,我们将假新闻检测视为多分类任务。给定一组 n 条新闻 N = {n1, n2,... 。 。 , nn} 和一组 m 个标签 Ψ ,假新闻检测识别分类函数 F ,使得 F : N → Ψ ,将每个新闻 n ∈ N 映射到具有 Ψ 中可靠标签的真实类。与假新闻相关的概念(见2.1节)对应的是与假新闻检测相关的概念,例如谣言检测和错误信息检测(分类)。这些概念的定义与假新闻检测任务类似。
2.2.2. Fake news detection datasets
在本节中,我们介绍最近用于假新闻检测的常见数据集。这些数据集是通过结合之前论文 [19,52,53] 中提出的英语数据集来准备的,并通过添加缺失的数据集来丰富。与其他调查或评论论文相比,我们计算了 35 个数据集的统计数据,而 D’Ulizia 等人。 [52],夏尔马等人。 [53],以及可汗等人。 [19]分别只考虑了 27、23 和 10 个数据集。因此,我们按域名、概念类型、内容类型和类数量列出数据集。表2对假新闻数据集进行了简要比较。根据表2中的内容,这些数据集可以进一步详细说明如下:
• ISOT1:来自路透社的假新闻和真实新闻;来自 PolitiFact 和维基百科标记的网站的假新闻。
• Fakeddit:英语多模态假新闻数据集,包括图像、评论和元数据新闻。
• LIAR2:英语数据集,包含 2007 年至 2016 年从在线流媒体和两个社交网络(Twitter 和 Facebook)收集的 12,836 条有关政治的简短陈述。
• 斯坦福假新闻:假新闻和讽刺故事,包括对人物的夸张支持或谴责、阴谋理论、种族主义主题以及对可靠来源的怀疑。 • FA-KES:有关叙利亚冲突的虚假新闻,例如伤亡、活动、地点和活动日期。
• BREAKING!:使用斯坦福假新闻数据集和BS 探测器数据集3 创建的英语数据集。这些数据,包括有关 2016 年美国总统大选的新闻,都是从网页收集的。
• BuzzFeedNews4:英语数据集,包含 2016 年至 2017 年从 Facebook 收集的 2283 篇有关政治的新闻文章。
• FakeNewsNet5:英语数据集,包含从在线流媒体和 Twitter 收集的 422 篇有关社会和政治的新闻文章。
• FEVER:英语数据集,包含从在线流媒体收集的 185,445 条有关社会的声明。
• FakeCovid:英文数据集,包含从 92 个事实核查网站爬取的 5182 篇有关 COVID-19 健康和社会的新闻文章,参考 Poynter 和 Snopes。 • CredBank6:英语数据集,包含 2014 年 10 月至 2015 年 2 月从 Twitter 收集的关于 1000 多个社会事件的 6000 万条推文。 • Memetracker:从 1.65 亿人中收集的英语数据集,包含 9000 万份文档、1.12 亿条引文和 2200 万条有关社会的各种短语。网站。 • BuzzFace:英语数据集,包含 2016 年 7 月至 2016 年 12 月从 Facebook 收集的 2263 篇新闻文章和 160 万条有关社会和政治的评论。该数据集于 2016 年 9 月进行了扩展。
• FacebookHoax:英语数据集,包含 2016 年 7 月至 2016 年 12 月从 Facebook 收集的 15,500 个有关科学的恶作剧。此外,该数据集还识别出拥有超过 230 万个赞的帖子。
• Higgs-Twitter:英语数据集,包含从 Twitter 收集的 527,496 位用户发布的有关新希格斯玻色子检测科学的 985,590 条推文。
• Trust and Believe:英语数据集,包含 Twitter 上 50,000 名政客用户的信息。所有信息都是手动标记的或使用可用的学习方法。
• Yelp:包含从在线流媒体收集的 18,912 条技术虚假评论的英语数据集。
• PHEME:英语和德语数据集,包含从 Twitter 收集的 4842 条推文和 330 个有关社会和政治的谣言对话。
由于手稿页数有限,我们不描述进一步的数据集。其余数据集显示在附录“数据集描述”下。
基于上述分析,我们比较了图1中假新闻数据集的标准,然后讨论了观察结果以及这些观察结果的主要原因。首先,从新闻内容的类型来看,35个数据集中有29个数据集包含文本数据(82.86%); 35 个数据集中的 3 个数据集包含文本、图像和视频数据(8.57%),即 Fakeddit、Stanford Fake News 和 Verification Corpus; 35 个数据集中有两个包含文本和图像数据(5.71%),即 FakeNewsNet 和 Breaking;仅 1 个数据集包含文本和视频数据(2.86%)。没有数据集包含单独的图像或视频,因为以前的假新闻检测方法主要使用基于 NLP 的技术,这些技术高度依赖于文本数据。此外,带标签的图像或视频数据很少,因为对其进行注释是劳动密集型且成本高昂的。
其次,就新闻领域而言,35 个数据集中有 20 个和 19 个数据集分别关注社会新闻(57.14%)和政治新闻(54.29%),而只有 1 个数据集包含经济、欺诈/骗局和虚假新闻(2.86%) 。这些发现可以用以下事实来解释:假新闻在政治和社会领域比在其他领域更具针对性和广泛性[89]。第三,关于假新闻概念的类型,35个数据集中有27个包含假新闻概念(77.14%),其次是谣言(11.43%)、讽刺(8.57%)、恶作剧和真实新闻(5.71%),最后是虚假评论(2.86%)。因此,包含假新闻概念的数据集通常用于假新闻检测应用,因为假新闻包含新闻机构为了政治或经济利益而传播的虚假信息[46]。最后,就应用类型而言,35个数据集最常见的应用目标是虚假检测(71.43%),其次是事实检查(11.43%)、真实性分类和谣言检测(8.57%),因为假新闻检测应用可以用来解决实际问题。此外,假新闻检测是最普遍的应用,涵盖了将虚假信息分类为真或假的整个过程。因此,虚假信息数据集与收集最相关[52]。
2.2.3. Features of fake news detection
图 2. 假新闻检测方法的特征类别。
图2总结了从新闻内容和上下文中提取和表示有用特征类别的细节。根据假新闻的新闻属性和判别特征,我们可以提取不同的特征来构建假新闻检测模型。目前,假新闻检测主要依赖于新闻和上下文信息。在这项调查中,我们将有助于假新闻检测的因素分为七类特征:网络特征、情感特征、语言特征、视觉特征、帖子特征、用户特征和基于潜在特征。基于语言的特征:这些特征用于捕获有关新闻写作风格属性的信息,例如单词、短语、句子和段落。假新闻旨在误导或娱乐公众以获取经济或政治利益。因此,基于假新闻的意图,我们可以很容易地提取出与假新闻中经常出现的写作风格相关的特征,例如使用挑衅性的词语来刺激读者的注意力,设置耸人听闻的标题。为了最好地捕捉基于语言的特征,我们将它们分为五种常见类型:词汇、句法、语义、特定领域和非正式。词汇特征指的是措辞,例如最显着的字符(n-gram)[90,91]、否定词、疑问词、缩写词、粗俗词[92]的频率以及词语的新颖性[93]。句法特征捕获与句子级别相关的属性,例如标点符号的数量[94]、功能词(名词、动词和形容词)的数量[93]、POS标签的频率[95]和句子复杂性[96, 97]。语义特征捕获与潜在内容相关的属性,例如潜在主题的数量[98]和上下文线索[99]。这些特征是通过最先进的 NLP 技术提取的,例如分布语义(嵌入技术)和主题建模(LDA 技术)[100]。特定领域的特征捕获与新闻中的领域类型相关的属性,例如引用的单词、图表的频率和外部链接[101]。非形式性特征捕获与书写错误相关的属性,例如拼写错误、脏话、网络用语和同意词的数量[27]。
基于情感的特征:此类特征捕获有关新闻中出现的人类情感或感受的属性[102,103]。这些特征是根据假新闻的意图和真实性特征来识别和提取的。它们分为两组:视觉极性和文本极性。与视觉极性相关的关键因素是正面/负面图像/视频的数量、焦虑/愤怒/悲伤图像/视频的数量以及感叹号的数量[27]。这些因素捕获类似于文本极性的信息。
基于用户的特征:此类特征是根据假新闻的恶意帐户特征(特别是社交机器人和机器人用户)进行识别和提取的。基于用户的功能是与创建或传播虚假新闻的用户帐户相关的属性。这些特征分为两个层面,即群体层面和个体层面[27]。该个人专注于利用每个特定用户的虚假或真实因素,例如注册年龄、关注者数量以及用户发布的意见数量[102,104]。同时,群体层面关注与用户群体相关的因素,如用户比例、关注者比例、关注者比例等[95,105]。基于帖子的特征:该类特征是根据假新闻的恶意账号和新闻特征进行识别和提取的。基于帖子的功能用于捕获与用户对共享新闻的响应或意见相关的属性。这些特征分为三类:组、后和时间[27]。帖子级别侧重于利用每个帖子的因素[28],例如其他用户对此帖子的看法(支持、否认)、主要主题和可靠性程度。群体层面关注与该帖子相关的所有意见的因素[106],例如支持意见的比例、反对意见的比例以及可靠程度[95,105]。时间水平记录了帖子和关注者数量随时间变化以及感官比率等因素[105]。
基于网络的特征:基于网络的特征用于提取有关新闻出现和传播的媒体属性的信息[107]。此类特征是根据假新闻的回声室、恶意账号、意图等特征进行识别和提取的。这里,可提取的特征是传播结构、传播方式以及与新闻传播相关的一些因素,例如密度和聚类系数。因此,可以形成许多网络模式,例如发生、立场、友谊和扩散[24]。姿态网络[106]是一个带有节点、边、显示所有与新闻相关的文本,节点之间的边显示文本中相似的立场权重。同现网络[28]是一个图,其中的节点显示用户,边缘指示用户参与度,例如用户对同一新闻的意见数量。友谊网络[105]是一个图,其节点显示对同一新闻有相关意见的用户,边显示这些用户的关注者/被关注者结构。扩散网络[105]是友谊网络的扩展版本,其节点表示对同一新闻有意见的用户;边缘显示了这些用户之间的信息传播路径与新闻相关的文本,节点之间的边显示文本中相似的立场权重。同现网络[28]是一个图,其中的节点显示用户,边缘指示用户参与度,例如用户对同一新闻的意见数量。友谊网络[105]是一个图,其节点显示对同一新闻有相关意见的用户,边显示这些用户的关注者/被关注者结构。扩散网络[105]是友谊网络的扩展版本,其节点表示对同一新闻有意见的用户;边缘显示了这些用户之间的信息传播路径.
基于视觉的特征:很少有假新闻检测方法被应用于视觉新闻[24]。此类特征是根据假新闻的真实性、新闻和预期特征来识别和提取的。基于视觉的特征用于捕获与包含图像、视频或链接的新闻相关的属性[27,100]。此类别中的特征分为两组:视觉特征和统计特征。视觉水平反映了每个视频或图像的因素,例如清晰度、连贯性、相似性分布、多样性和聚类得分。统计层面计算所有视觉内容的因素,例如图像的比例和视频的比例。
潜在特征:这里我们需要注意的一个关键概念是不可直接观察到的潜在特征,包括潜在文本特征和潜在视觉特征。需要潜在特征来更有效地从原始数据中提取和表示潜在语义。此类特征是根据假新闻的回声室、真实性、新闻信息等特征进行识别和提取的。通常通过使用新闻文本表示模型来创建新闻文本向量来提取潜在文本特征。文本表示模型可以分为三组:上下文化文本表示,例如 BERT [110]、ELMo [111]、非上下文化文本表示,例如 Word2Vec [112]、FastText [113]、GloVe [114] 和基于知识图的表示,例如 Koloski 等人。方法[115]、RotatE[116]、QuatE[117]、ComplEx[118]。上下文化文本表示是可以捕获更丰富的上下文和语义信息的词向量。基于知识图的表示可以通过两个实体之间的连接及其基于知识图的关系来添加人类知识表示,从而丰富各种上下文和非上下文表示。新闻文本表示不仅可以用作传统机器学习模型[119]的输入,还可以集成到深度学习模型中,例如神经网络[115]、循环网络[120]和变压器[110,121,122]以及基于GNN的用于假新闻检测的模型[123-125]。潜在的视觉特征通常是从视觉新闻中提取的,例如图像和视频。通过使用神经网络[126]来提取潜在视觉特征,以创建包含图像像素张量或矩阵的潜在视觉表示。
2.2.4. Fake news detection techniques
图 3. 假新闻检测的类别。
图 3 显示了假新闻检测技术的概述。之前的相关论文[21,27,42,46,53,79,107]证明假新闻检测技术通常分为四类方法:基于内容的方法,包括基于知识和基于风格的方法,基于上下文的方法、基于传播的方法、基于多标签学习的方法和基于混合的假新闻检测方法。令 Ψ a 为假新闻检测任务的相应输出类之一。例如,Ψ a ε {真实,假}或 Ψ a ε {非谣言,未经证实的谣言,虚假谣言,真实谣言}或 Ψ a ε {真,假}。
基于知识的检测:给定新闻项 a,其具有由三元组 K = (S, P, O) [127] 表示的一组知识,其中 S = {s1, s2, . 。 。 , sk} 是从新闻项 a 中提取的主题集合,P = {p1, p2,... 。 。 , pk} 是从新闻项 a, O = {o1, o2,... 中提取的一组谓词。 。 。 , ok} 是从新闻项a中提取的一组对象。因此,ka i = (si, pi, oi) ∈ K , 1 ≤ i ≤ n,称为知识。例如:我们有一条新闻“约翰·史密斯是中心医院的一位著名医生”,从这个陈述中,我们有 ka i = (约翰·史密斯, 职业, 医生)。假设我们有一组真实的知识 Kt = (St, Pt, Ot),其中ktal = (stl, ptl, otl) ∈ Kt, 1 ≤ l ≤ m 设GK是包含一组真实知识的真实知识图,其中节点代表一组(St)。 , Ot) ε Kt 和边表示一组 (Pt) ε Kt,基于知识的假新闻检测方法的目的是定义一个函数 F 来比较 ka i = (si, pi, oi) ε K 和 ktal = (stl, ptl, otl) ∈ Kt,使得: F : ka i GK −→Ψ a i 。 函数 F 用于为每个三元组 (si, pi, oi) 分配标签 Ψ a i∈ [0, 1]将其与图 GK 上的所有三元组(stl、ptl、otl)进行比较,其中标签 0 和 1 分别表示假和真。函数 F 可以定义为 F (ka i , GK ) = Pr(edge pi 是来自的链接。 ˆ si 到 ˆ oi 在 GK 上),其中 Pr 是概率; ˆ si 和 ˆ oi 分别是与 GK 上 si 和 oi 匹配的节点 ˆ si = argminstl |J(si, stl)| < 和 ˆ oi = argminotl |J(oi, otl)| < 分别为 ,其中 xi 是某个阈值; J(si, stl) 是计算 si 和 sti 之间距离的函数,与 J(oi, otl) 类似。例如,当 |J(si, stl)| = 0 或 |J(si, stl)| < xi ,我们可以将 si 视为与 sti 相同。该类别的技术是根据假新闻的真实性和新闻特征提出的。基于知识的技术的目标是利用外部来源来对新闻陈述进行事实核查。事实检查步骤旨在识别与特定上下文相对应的陈述的真实性[72]。它可以自动实现(面向计算[128])或手动实现(基于专家[101, 129,130],众包[67,131])。
基于风格的检测:给定一个具有一组 f a s 风格特征的新闻项 a,其中 f a s 是一组有关新闻内容的特征。基于风格的假新闻检测被定义为二元分类来识别新闻项 a 是假的还是真实的,这意味着我们必须找到一个映射函数 F 使得 F : f a s → Ψ a。该类别的技术是根据假新闻的意图和新闻特征提出的。基于风格的技术的目标是捕捉假新闻独特的写作风格。假新闻以独特的风格吸引了很多人的注意,从普通新闻中脱颖而出。书写风格的捕捉步骤是自动构建的。然而,必须遵守两种技术作为标准:风格表示技术[132-134]和风格分类技术[28,91,135]。
基于上下文的检测:给定新闻项a,具有一组fa c 上下文特征,其中fa c 包括新闻文本、新闻来源、新闻发布者和新闻交互。基于上下文的假新闻检测被定义为二元分类的任务,以识别新闻项 a 是假的还是真实的,这意味着我们必须找到一个映射函数 F,使得 F : f a c → Ψ a。技巧该类别是根据恶意账号和假新闻的新闻特征提出的。基于来源的技术的目标是获取出现、发布和传播新闻的来源的可信度[27]。可信度是指人们对新闻的质量和可信度的情感反应。此类技术通常分为两种方法:(i)根据新闻作者和出版商评估新闻出现和传播的来源的可靠性[136,137]和(ii)评估新闻出现和传播的来源的可靠性基于社交媒体用户传播[105,138,139]。
基于传播的检测:给定新闻项 a 和一组新闻传播模式特征。基于传播的假新闻检测被定义为二元分类,以识别新闻项 a 是假的还是真实的,这意味着我们必须开发一个映射函数 F,使得 F : f a p → Ψ a。此类技术是根据假新闻的回声室效应和新闻特征提出的。基于传播的技术的目标是捕获和提取有关假新闻传播的信息。也就是说,此类方法旨在根据人们分享假新闻的方式来检测假新闻。这些技术通常分为两大类:(i)使用新闻级联[140,141]和(ii)使用自定义传播图[142-145]。
基于多标签学习的检测:令 χ ∈ Rd 为 d 维输入特征矩阵;因此,新闻项 a = [a1, . 。 。 ,ad] ε χ ;令 Γ = {real, fake}l 为标签矩阵,使得 Ψ = [Ψ1, . 。 。 , Ψl] ∈ Γ ,其中 l 是类标签的数量。给定一个训练集 {(a, Ψ )},多标签学习检测的任务是学习一个函数 F : χ → Γ 来预测 ˆ Ψ= F (a)。基于多标签学习的检测是一种学习方法,其中训练集中的每个新闻项都与一组标签相关联。此类技术是根据假新闻的回声室效应和新闻特征提出的。基于多标签学习的技术的目标是捕获和提取有关新闻内容和新闻潜在文本的信息。此类技术通常分为四种方法:(i)使用基于样式的表示[17,115,146,147]; (ii) 使用基于风格的分类[15, 29,148–151]; (iii) 使用新闻级联[140,152]; (iv) 使用自定义的传播图[4,16,125,153]。
基于混合的检测:该方法是一种最先进的假新闻检测方法,它同时结合了两种先前的方法,例如内容上下文[154,155]、传播内容[147,156]和上下文传播[4] ,14]。这些混合方法目前很受关注,因为它们可以捕获与假新闻相关的更有意义的信息。因此,它们可以提高假新闻检测模型的性能。
需要讨论的一个关键问题是假新闻的早期发现。假新闻的早期检测通过仅提取与原始新闻项的出现相比具有适当时间延迟的有限社会背景来提供假新闻的早期警报。基于知识的方法稍微不适合假新闻早期检测,因为这些方法强烈依赖于知识图谱;同时,新传播的新闻往往会产生新的信息,并包含知识图谱中未出现的知识。基于风格的方法可用于假新闻早期检测,因为它们主要依赖于新闻内容,使我们能够在新闻出现且尚未传播后立即检测假新闻。然而,基于风格的假新闻早期检测方法仅适用于短时间内,因为它们严重依赖于创作风格,而创作者和传播者可以改变这种风格。基于传播的方法不适合假新闻的早期检测,因为尚未传播的新闻通常包含很少的有关其传播的信息。据我们所知,基于上下文的方法最适合假新闻早期检测,因为它们主要依赖于新闻环境,例如新闻来源、新闻发布者和新闻互动。该功能允许我们在新闻出现后立即通过网站垃圾邮件检测[157]、不信任链接修剪[158]和用户行为分析[159]方法检测假新闻。一般来说,假新闻的早期发现只适用于短时间内,因为人类智力是无限的。当假新闻的早期检测方法得到应用时,用不了多久,人类就会创造出一种有效的方法来打击它。这个问题仍然是假新闻检测领域的重大挑战。
2.3. Understanding graph neural networks
在本节中,我们提供 GNN 的背景和定义。下一节将讨论 GNN 的技术、挑战和类型。在介绍本节内容之前,我们先介绍一下表 3 中本文使用的符号。
2.3.1. What is a graph?
在讨论图结构的深度学习模型之前,我们提供图结构的更正式的描述。形式上,一个简单的图表示为 G = {V , E},其中 V = {v1, v2,...。 。 。 , vn} 是节点集合,E = {e11, e12, . 。 。 , enn} 是边的集合,其中 eij = (vi, vj) ∈ E, 1 ≤ i, j ≤ n。其中,vi和vj是两个相邻节点。邻接矩阵 A 是一个 n × n 矩阵,其中
我们可以使用简单图的更多信息来创建改进的图,例如属性图[6]、多关系图[160]。
属性图是简单图的扩展版本。它们是通过节点属性X或边属性X e相加得到的,其中X ∈ Rn×d是节点特征矩阵,xvn ∈ Rd表示节点v的特征向量; X e ∈ Rm×c 是边缘特征矩阵,其中 xevi,vj ∈ Rc 表示边缘 eij 的特征向量。
这里节点属性随着时间自动改变。因此,令 X (t) 为第 t 个时间步的节点表示的特征矩阵,时空图定义为 G(t) = {V , E, X (t)},其中 X (t) ∈ Rn×d。多关系图是简单图的另一种扩展版本,其中包括具有不同类型关系 τ 的边。
在这些情况下,我们有 eij = (vi, vj) ε E → eij = (vi, τ , vj) ε E。每条边都有一个关系邻接矩阵 Aτ 。整个图可以创建一个邻接张量 A ∈ Rn×r×n。多关系图可以分为两个子类型:异构图和多重图。
异构图:这里,节点可以分为不同的类型。这意味着 V = V1 ∪ V2∪ ... ∪ Vk,其中 i ̸= j,Vi ∩ Vj = ∅。同时,边通常必须满足节点类型之后的条件。然后,我们有 eij = (vi, τ , vj) ε E → eij = (vi, τh, vj) ε E,其中 vi ∈ Vt ,vj ∈ Vk 且 t ̸= k。
多重图:这里,图被分为一组 k 层,其中每个节点属于一层,并且每层都有一个唯一的关系,称为层内边类型。另一种边缘类型是层间边缘类型。层间层连接跨层的同一节点。这意味着 G = {Gi, i ∈ {1, 2, ... 。 。 , k}},Gi = {Vi, Ei},其中 Vi = {v1, v2, . 。 。 , vn}, Ei = Eintra i ∪ Einter i , Eintra i = {elj = (vl, vj), vl, vj Î Vi}, Einter i = {elj = (vl, vj), vl Î Vi, vj Î Vh ,1≤h≤k,h̸=i}。
2.3.2. What are graph neural networks?
GNN 是使用图结构数据上的深度学习模型创建的,这意味着深度学习模型处理欧几里得空间数据;相反,GNN [6,161-163] 处理非欧几里得域。假设我们有一个图 G = {V , E} ,其中邻接矩阵 A 和节点特征矩阵(或边特征矩阵)X(或 X e)。给定 A 和 X 作为输入,GNN 的主要目标是在第 k 层之后找到输出,即节点嵌入和节点分类: H(k) = F (A, H(k−1) ; θ (k)),其中 F 是传播函数; θ 是函数 F 的参数,当 k = 1 时,则 H(0) = X 。传播函数有多种形式。设 σ (·) 为非线性激活函数,例如 ReLU; W(k)是第k层的权重矩阵; ˆ A 为归一化邻接矩阵,计算公式为 ˆ A = D−0.5A⊤D−0.5 其中 D 为 A⊤ 的对角度矩阵,计算公式为 Dii = Σ j A⊤ ij ; A⊤ = A + I 其中 I 是单位矩阵。通常使用传播函数的简单形式:F (A, H(k)) = σ (AH(k−1)W (k))。此外,还可以改进传播函数以适合GNN任务,如下所示
对于节点分类任务,函数 F 通常采用以下形式[164]:
对于节点嵌入任务,函数 F 通常采用以下形式[165]:
其中 Q 是一个转换器,表示边 e 是否连接到给定节点,并且 Q ⊤ = T +I; Me 是边的可学习矩阵; φ 是对角化算子; ⊙ 是元素乘积; H(k−1) e 是第 (k − 1) 层边缘的隐藏特征矩阵,其中 H0 e = X e (X e 是边缘特征矩阵)。 Q φ(H(k−1) e Me)Q ⊤ 是对边缘的特征矩阵进行归一化。 Q φ(H(k−1) e Me)Q ⊤⊙ ˆ A 是通过添加边的信息来融合邻接矩阵。
参考文献中详细介绍了 GNN 中传播函数的更多选择。 [13,165]。 Sperduti 等人将早期神经网络应用于非循环图。 [166] 1997 年。2005 年,Gori 等人。 [167]引入了 GNN 的概念,Scarselli 等人进一步详细介绍了这一概念。 [168] 2009 年,Gallicchio 等人。 [169] 2010 年。根据 Wu 等人的说法。 [6],GNN 可分为四种主要分类法:传统 GNN、图卷积网络、图自动编码器和时空图神经网络。在接下来的小节中,我们将介绍 GNN 的类别。
传统的图神经网络(GNNs*)是循环神经网络(RNNs)的扩展,由 Scarselli 等人首次提出。 [168]通过考虑信息扩散机制,其中节点的状态被更新并交换信息,直到获得稳定的平衡[167,168]。在这些 GNN 中,函数 F 也定义为等式: (3)。然而,第 k 层的特征矩阵 H(k) 使用不同的方程进行更新,如下所示:
其中 N(vj) 是节点 vj 的邻居节点集合,F 是参数函数,H(k) vj 是节点 vj 第 k 层的特征向量,H(0) vj 是随机向量。
图卷积网络(GCN)首先由 Kipf 和 Welling [164] 提出。它们能够表示图形并在各种任务中表现出出色的性能。在这些 GNN 中,在构建图之后,函数 F 也定义为等式: (3)。然而,GCN 在第 k 个卷积层的递归传播步骤由下式给出:
其中 H(0) = X 。 σ (·) 是激活函数。 W(k) ∈ Rm×d, k = {1, 2, 3, . 。 .} 是为第 k 层创建的转移矩阵。 b(1) 和 b(2) 是两层的偏差
图自动编码器 (GAE) 是具有两个组件的深度神经架构:(i) 编码器,将图上的节点转换为潜在特征的向量空间;(ii) 解码器,从潜在特征中解码图上的信息。特征向量。 GAE 的第一个版本是由 Kipf 和 Welling 提出的[170,171]。在这些 GNN 中,函数 F 的形式被重新定义为以下等式:
其中 ̃ A = φ(ZZ ⊤) 是重建的邻接矩阵,φ 是解码器组合的激活函数。 Z是编码器组成的输出。在这些 GAE 中,GCN 在编码器步骤中用于创建嵌入矩阵;因此,Z是根据方程计算的。 (3)。因此,Z = F ( ˆ A, H(k)) 和 F (·) 对应于 GCN 的情况。 Z ⊤ 是 Z 的转置矩阵。
现实世界的任务作为图结构和图输入都是动态的。为了表示这些类型的数据,按照第 2.3.1 节中的介绍构建了时空图。然而,为了捕捉这些图的动态性,STGNN 被提议用于对包含具有动态和相互依赖性的节点的输入进行建模。 STGNN 可以分为两种方法:基于 RNN 的方法和基于 CNN 的方法。对于基于 RNN 的方法,为了捕获时空关系,STGNN 的隐藏状态被传递到基于图卷积的循环单元 [172-174]。 STGNN 的传播函数形式也如式(1)所示。 (3)。然而,第k层的值计算如下:
其中 X n(t) 是时间步 t 的节点特征矩阵。使用图卷积后,方程: (10) 重新计算如下:
其中 GCN 是 GCN 模型之一。 U ∈ Rn×n 是按特征值排序的特征向量矩阵,其中 U⊤U = I。
对于基于 CNN 的方法,基于 RNN 的方法递归地处理时空图。因此,它们必须迭代传播过程,因此它们在传播时间和梯度爆炸或消失问题方面存在局限性[175-177]。基于 CNN 的方法可以通过利用并行计算实现稳定的梯度和低内存来解决这些问题。
基于注意力的图神经网络(AGNN)[178]删除了所有中间的全连接层,并用保持图结构的注意力机制替换传播层[179]。注意力机制允许学习邻域的动态和自适应局部摘要,以获得更准确的预测[180]。 AGNN 的传播函数形式如式(1)所示。 (3)。然而,AGNN 包含图注意力层。在每一层中,一个共享的、可学习的线性变换 M ∈ Rth×dh ,其中 h 是第 t 个隐藏层的数量,dh 是第 t 个隐藏层的维度,用于每个节点的输入特征如下:
其中节点 vi 的行向量定义如下:
其中 β(t−1) ε R 是传播层的注意力引导参数。请注意,传播层的 β 值会随着隐藏状态的变化而变化。 φ(·)是传播层的激活函数。
3. Survey methodology
图4. 研究方法流程图
在这项研究中,我们使用 GNN 方法对假
新闻检测文章进行了系统回顾,包括三个主要步骤:“文献搜索”、“选择合格论文”和“分析和讨论”[181] 。研究方法如图4所示:
文献检索用于选择包含以下关键字的同行评审的英文科学论文:“GNN”OR“图神经网络”OR“GCN”OR“图卷积网络”OR“ “GAE”或“图自动编码器”或“AGNN”或“基于注意力的图神经网络”与“假新闻”或“假新闻”或“谣言”或“谣言”或“恶作剧”或“点击诱饵”或“讽刺”或“错误信息”与“检测”相结合。这些关键词是从 2019 年 1 月到 2021 年第二季度末从 Google Scholar、Scopus 和 DBLP 中提取的。
合格论文的选择用于排除使用 GNN 进行假新闻检测的非显式论文。为了选择明确的论文,我们指定了一组排除/纳入标准。纳入标准如下:英文撰写,2019年后发表,经过同行评审,全文检索。排除标准如下:评论、调查、比较或仅提出数学模型的论文。分析和讨论论文用于比较调查文献并捕捉主要挑战和有趣的开放问题,旨在为假新闻检测提供各种独特的未来方向。
通过上述策略,最终共选取27篇论文(2019年5篇,2020年16篇,2021年前6个月6篇)进行综合比较和分析。这些选定的论文根据 GNN 分类法分为四组(参见第 2.3.2 节),包括传统的基于 GNN、基于 GCN、基于 AGNN 和基于 GAE 的方法。下一步,根据方法名称、关键思想、损失函数、优点和缺点等标准对合格论文进行分析。
4. Quantitative analysis of eligible papers
以前的假新闻检测方法主要使用机器学习[74,92,182–184]和深度学习[95,120,185–189]来将新闻分类为假或真、谣言或非谣言、垃圾邮件或非垃圾邮件。关于使用机器学习和深度学习检测假新闻的各种调查和评论论文已经发表。在本文中,我们详细讨论了最新的基于 GNN 的假新闻检测方法。使用第 3 节中的研究方法,最终选择了 27 篇在 2019 年之后发表的使用 GNN 进行假新闻检测的论文,以便在以下小节中进行更详细的审查。表 4 展示了之前研究在模型名称、推荐代码(表 5)、作者、出版年份、GNN 类型、数据集、性能和基于方法的假新闻检测方面的比较。利用表 4 中信息之间的关系,我们根据基于 GNN 的假新闻检测方法的四种分布标准对定量调查方法进行了比较,如图 5 所示
2019年至2021年(第二季度末)有关使用GNN进行假新闻检测的调查论文数量表明,该问题正在吸引系统从业者越来越多的关注(从2019年到2020年增加了40.74%)。尽管在 2021 年,只有 22.22% 的假新闻检测文章集中在使用 GNN,但第二季度尚未结束,考虑到假新闻相关的爆发,我们相信今年最后两个季度将会产生更多该领域的文章。 COVID-19 以及该问题的挑战。就所采用的新闻概念类型(目标类型)而言,27 篇调查论文中有 14 篇与假新闻检测相关(51.85%),其次是谣言和垃圾邮件检测(29.63%、7.41%),而其他类型检测仅占3.7%。造成这些结果的一个可能原因是假新闻的产生和传播符合积极的经济和政治利益。也就是说,假新闻如果不及时发现和防范,会给人们带来很多不良影响。此外,正如上面分析的,一个同样重要的原因是用于假新闻检测的数据集现在比其他数据集更丰富、标记更全面(参见第 2.2.2 节)。
关于基于 GNN 的技术,作者主要(74.07%)使用 GCN 来进行假新闻检测模型,其次是基于 GNN 的方法(14.81%)、GAE 和 AGNN(3.7%)。这种选择归因于 GCN 对于图表示的适用性,以及在广泛的任务和应用中实现了最先进的性能 [13]。最后,发布了三分之一的基于传播和基于内容的方法(33.33%),其次是基于混合的(22.22%)和基于上下文的(11.11%)方法。这一结果归因于基于传播和基于上下文的方法,主要同时使用有关网络结构、用户和语言学的新闻信息。该信息对于假新闻检测最为重要。
5. Literature survey
在本节中,我们将调查使用图神经网络进行假新闻检测的论文。基于GNN分类法(参见第2.3.2节),我们将基于GNN的假新闻检测方法分为传统的基于GNN、基于GCN、基于AGNN和基于GAE的方法,如表6所示。
• 传统的基于 GNN 的方法(GNN*)是基于 GNN 的假新闻检测方法的先驱。这些方法将一组类似的循环参数应用于图中的所有节点,以创建具有更好和更高级别的节点表示。
• 基于GCN 的方法(GCN) 通常使用卷积运算来创建图的节点表示。与传统的基于 GNN 的方法不同,基于 GCN 的方法允许集成多个卷积层以提高节点表示的质量。
• 基于AGNN 的方法主要通过将注意力机制输入图中来构建。因此,AGNN 用于有效捕获和聚合重要邻居来表示图中的节点。
• 基于GAE 的方法是无监督学习方法,用于将图上的节点编码为潜在向量,并对编码信息进行解码以重构图数据,从而通过集成潜在信息来创建节点表示。
调查论文中提出的用于检测虚假信息的大多数方法都用于解决分类问题任务,该任务涉及将谣言或非谣言、真或假等标签与特定文本片段相关联。在使用 GNN 进行假新闻检测时,研究人员主要采用传统的 GNN 和 GCN 来实现最先进的结果。另一方面,一些研究人员应用了其他方法,例如 GAE 和 AGNN,来预测其符合的标签。
5.1. Detection approach based on GNNs∗
GNN* 代表了 GNN 的第一个版本,提高了使用非欧几里得数据的机器学习和深度学习方法的假新闻检测性能。韩等人。 [4]利用非欧几里得数据的 GNN* 的能力来检测社交网络上新闻传播方法之间的差异。然后,他们通过训练两个 GNN 实例,将新闻分为假新闻和真实新闻两个标签。在第一种情况下,GNN* 在完整数据上进行训练。第二个案例涉及使用部分数据训练 GNN*。在第二种情况下,与传统的 GNN 不同,使用梯度情景记忆和弹性权重合并两种技术来构建 GNN*,并持续学习,旨在早期检测虚假传播模式。与最先进的模型相比,该方法无需考虑任何文本信息即可获得优越的性能。特别是,在训练新数据时,随着数据集的增长,可以节省时间和成本,因为整个数据集不会被重新训练。然而,一个主要限制是,强遗忘的发生并不能通过提取更多特征(包括“通用”特征)来解决。哈米德等人。 [193]介绍了一种通过分析与 COVID-19 和 5G 网络之间的阴谋论相关的推文来检测传播错误信息的恶意用户的方法。该方法包括两个基础:(i)基于内容的假新闻检测和(ii)基于上下文的假新闻检测。第二种策略是基于GNNs*实现的,训练GNNs*表示,并将5G网络评论分为三类:非阴谋、阴谋和其他阴谋。所获得的平均 ROC 性能非常好(0.95%),因为它捕获了与新闻文本和结构方面相关的大部分信息。然而,文本信息和结构信息都没有同时使用。阮等人。 [5]提出了一种名为 FANG 的模型,用于基于新闻上下文的假新闻检测,考虑以下步骤:(i)提取有关新闻的特征,例如来源,用户及其互动,并发布时间表; (ii) 构建两个次齐次图,即新闻源和用户; (iii) 分别在两个子图上使用无监督模型来建模邻居关系。此外,作者使用预训练的检测网络来检测新闻内容作为扩展信息。与最近的图形和非图形模型相比,FANG 可以以更高的保真度捕获新闻上下文。特别是,即使训练数据有限,FANG 仍然具有鲁棒性。然而,用户及其交互等特征在输入 FANG 之前会被提取。因此,可能会出现一些关于文本编码和情感检测的错误,并将它们提供给FANG。另一个限制是上下文数据集的快速过时,因为我们无法在查询时检索超链接和其他跟踪,因为它们可能不再可用。
与 GNN* 上的其他当代工作不同,上面介绍了假新闻检测任务。钱德拉等人。 [15]提出了一种称为 SAFER 的方法,具有三个不同的特征。 (i) 他们为两种类型的边和节点构建了一个具有相同异构输入图的 GNN* 模型。 (ii) 他们通过利用在线社交社区的影响来确定上下文特征,而不使用用户配置文件。 (iii)他们只使用在线用户的网络信息来评估这些社区的角色,但他们的结果仍然比以前的方法更好。作者提出了关系 GNN* 和双曲 GNN* 来建模用户和社区关系。关系 GNN 比传统 GNN 获得了更好的结果。然而,双曲 GNN* 的结果仅与其他 GNN* 具有可比性。因此,为真正分层的社交网络数据集建模用户/社区是未来需要解决的挑战。
5.2. Detection approach based on GCNs
基于 GCN 的方法是一类主要用于假新闻检测并依赖于 GNN 的方法。 GCN 是 GNN 的扩展,它基于卷积函数导出图结构并集成来自邻域的节点信息。 GCN 可以表示图并在各种任务上实现最先进的性能,包括假新闻检测。卢等人。 [14]提出了一种名为 GCAN 的推文假新闻检测新方法,包括以下五个主要步骤:(i)提取与用户相关的量化特征; (ii) 将新闻推文中的单词转换为向量; (iii) 代表用户之间有意识的推文传播方法; (iv) 捕获推文上下文与用户交互之间以及推文上下文与用户传播之间的相关性; (v) 通过结合所有学习到的表征,将推文分类为假新闻或真实新闻。 GCAN 表现出出色的性能和合理的可解释性。这项研究的主要贡献是将双重注意力机制与 GCN 相结合。第一个机制同时捕获推文上下文和用户交互之间的关系。第二种机制同时捕获推文上下文和用户传播之间的关系。该方法可以被认为是 GCN 的丰富版本。 GCAN 的形式由 GCN 改进如下:Hs = tanh(WsS + (Wg G)F ⊤),Hg = tanh(Wg G + (WsS)F ),其中 S 表示推文上下文之间关系的嵌入和用户交互; G表示推文上下文和用户传播之间关系的嵌入; Ws和Wg表示可学习参数的矩阵; F 和 F ⊤ 分别是变换矩阵及其转置。
基于 GNN 固有的聚合机制,Zhang 等人。 [151]提出了一种称为 SAGNN 的简化 GNN 方法,用于计算 Twitter 用户与其他用户之间的互动程度,以进行谣言检测。与传统 GCN 的卷积层不同,SAGNN 不包含权重矩阵 W 。此外,邻接矩阵的识别与传统的 GCN 不同。因此,SAGNN中的两层被定义为H(1) = σ (H(0)E),其中H(1)称为嵌入层,E是词嵌入矩阵。因此,H(2) = σ ( ̃ AH(1)),其中H(2)称为聚合层; ̃ A = I + uB + vC,其中 u、v 是 SAGNN 的可学习参数。矩阵 B 计算如下:如果 vi 是 vj 的父级,则 Bij = 1,否则为 0;而矩阵 C 的定义为,如果 vi 是 vj 的子级,则 Cij = 1,否则为 0。Ke 等人。 [156]通过捕获微博上来源、转发和用户之间的本地和全局关系,构建了一个异构图,即 KZWANG,用于谣言检测。该方法包括以下三个主要步骤:(i)词嵌入使用多头注意力机制将新闻的文本内容转换为向量,
其中 headi=attention(QW Q i , KW K i , VW Vi ) 其中 Q ∈ Rnq×d, K ∈ Rnk×d, V ∈ Rnv×d 是查询、键和值的句子; nq、nk、nv 是每个句子中的单词数;和注意力(Q,K,V)= Softmax(QK⊤√dk)V; (ii) 传播和交互表示是通过 GCN 学习的; (iii) 图构建构建了用户之间潜在交互的模型:P = H(k) = σ ( ˆ AH(k−1)W (k−1))。该模型与传统 GCN 的区别在于,KZWANG 是使用多头注意力机制的新闻文本表示和使用 GCN 的传播表示的组合。因此,GCN层和多头注意力层的输出是谣言分类的输入:R = Softmax(TP + b),其中T是文本表示矩阵。 P是传播表示矩阵。 R是整个模型的输出。
洛特菲等人。 [204]引入了一个包含两个 GCN 的模型:(i)推文的 GCN,例如源和回复为 T = H(k) = σ (^ AT H(k−1)W (k−1)); (ii) 用户的 GCN,例如用户之间的交互为 Re = H(k) = σ ( ˆ AReH(k−1)W (k−1)) 其中 AT 是推文 GCN 的邻接矩阵,确定为if (推文 i 回复推文 j) 或 (i = j) 则 Aij T = 1,否则为 0。同时,ARe 是用户 GCN 的邻接矩阵,定义如下: if (用户 i 向用户 i 发送了 m 条推文对话中)或(i = j)则Aij Re = 1,否则为0。并且H(0)= X确定为:如果(推文i中存在高频词j)或(传播时间为回复之间的间隔推文 i 和源推文)则 X ij = 1 否则 0 。与其他模型不同,作者构建了两个独立的 GCN,然后将它们连接成一个全连接层,用于假新闻检测,称为 Softmax((T ⊕ Re)W + b),其中 ⊕ 是连接函数。
武等人。 [125]提出了一种名为 GraphSAGE 的新方法,用于基于传播检测的谣言检测。与其他基于传播的方法相比,该方法提出了一种基于 GCN 的图传播嵌入方法,通过将节点特征向量和其本地邻居的特征向量聚合为组合向量,将新闻传播过程及其特征转换为向量空间。因此,GraphSAGE模型与传统GCN模型的区别在于聚合器功能,它分为以下聚合器:(i)卷积聚合器:
(ii) LSTM aggregator:
(iii) 池聚合器:
(iv) 线性聚合器:
其中 wi 是邻居 hvi 的权重向量。 GraphSAGE 有效地集成了内容、社交、时间和传播结构等功能。这些功能可以聚合重要信息来训练算法来确定新闻是否是谣言。然而,这种方法需要有关所发布新闻的整个传播过程的数据。在某些情况下,如果发布的新闻在传播时没有获得回应意见,那么 GraphSAGE 模型的准确性就会降低。卞等人。 [16]提出了一种Bi-GCN模型,具有自上而下(TD-GCN)和自下而上(BU-GCN)两种传播操作,以检测谣言、分散和传播的两个基本特征。 Bi-GCN 的构建如下: (i) 高级节点表示为 H(k) TD = σ ( ˆ ATDH (k−1)W (k) TD ) 和 H(k) BU = σ ( ˆ ABU H (k−1)W (k) BU )。 (ii) 根特征增强如下 ̃ H (k) TD = concat (H (k) TD , (H (k−1) TD )root ) 和 ̃ H (k) BU = concat(H(k) BU , (H (k−1) BU )root ) 其中 concat 是连接函数; root表示根节点; (iii) 节点表示作为 STD =mean( ̃ H (2) TD ) 和 SBU =mean( ̃ H (2) BU ) 馈送到池聚合器中,然后将它们连接到一个全连接层中以进行假新闻检测,如下所示^ y = Softmax(concat(STD, SBU ))。该模型可以使用 TD-GCN 捕获谣言模式的传播,也可以使用 BU-GCN 捕获谣言结构的分散。另外,通过GCN层层提取新闻隐藏信息,增加谣言根源的影响力。然而,TD-GCN和BU-GCN仍然是独立构建的。
白等人。 [154]构造了一个称为SR图的图,其中节点特征矩阵X由词向量确定;相邻矩阵 A 定义如下:如果推文 i 回复推文 j,则 Aij = 1,否则为 0。利用 SR 图,作者提出了用于谣言检测的 EGCN 模型 PG = H(k) = σ ( ˆ AH(k−1)W (k)),节点比例分配机制为 PT = TextCNN(A, X ),其中 TextCNN 表示传统的 CNN 模型。令 n 和 m 分别为当前 SR 图和最大 SR 图中的节点数,我们通过 Y = PG × nm + PT (1 − nm ) 得到 EGCN 的特征输出。 EGCN 的输出由 ^ y = Softmax(FC (Y )) 确定。该模型侧重于利用新闻内容对谣言传播过程的影响。然而,EGCN 需要有关所发布新闻的整个对话的数据。在某些情况下,如果发布的新闻在传播时没有得到回应意见,其准确性就会降低。 Hu 等人提出的多深度 GCN。 [190]结合新闻的相似性,通过差异程度来区分新闻的真假。该方法可以解决假新闻检测的重大挑战,即对信息有限的短新闻(例如标题)进行自动假新闻检测。作者没有堆叠 GCN 层来合并长距离的信息,而是计算不同的距离邻近矩阵来描述节点之间的关系并显式保护多粒度信息,从而改进了具有多样性信息的节点表示过程。因此,它在输入 GCN 之前执行 k 步邻近来创建不同深度的邻近矩阵。对于第 k 个邻近度,输出定义为 zk = ˆ AkReLU( ˆ AkXW (0) k )W (1) k , k = 1, 2, 3, ...。 。 .,其中节点特征矩阵 X 包含词嵌入和信用历史表示。 ˆ Ak 是第 k 个邻近矩阵: ˆ Ak = ˆ A× ˆ A×···× ˆ A k 其中,如果 i、j 具有相同的工作职位,则 Aij = 1,否则 Aij = 0。然后,使用注意力机制聚合多深度信息以创建最终表示 Pj = m Σ i=1 αizi
阮等人。 [155]介绍了两种基于文本和基于图形的方法,用于检测有关 COVID-19 和 5G 阴谋的虚假新闻。对于第一种方法,作者使用预训练的 BERT 模型和多层感知器模型的组合来检测假新闻,以捕获推文的文本特征和元数据。对于第二种方法,作者使用了每个节点提取了 9 个特征的 GCN,例如页面排名、中心和权限,以进行基于内容的假新闻检测。在实现这两种方法之后,作者证明第一种方法的性能优于第二种方法。因此,元数据在假新闻检测中发挥着重要作用。因此,未来应该考虑通过提取GCN的元数据特征来提高假新闻检测的效率。关于 COVID-19 和 5G 阴谋,Pehlivan [194]引入了基于结构的假新闻检测来评估现有模型的性能。与其他方法不同,作者仅使用网络的时间特征,而没有考虑文本特征。选择了两个最先进的模型来评估 GCN 和 DGCN [205]。此外,作者使用他们的时间特征来测试多元长短期记忆全卷积网络方法[206]。 GCN和DGCN的节点特征矩阵是根据以下值创建的:度中心性、接近中心性、介数中心性、负载中心性、调和中心性、#cliques、聚类系数、平方聚类系数和平均邻居度。多元长短期记忆全卷积网络的节点特征矩阵是使用平均聚类系数、#graph cliques、#connected Components、局部效率、#isolates 和到源推文的归一化时间距离创建的。李等人。 [191]引入了一种基于传播的方法,通过关注新闻的社会背景信息来确定政治观点。在本研究中,GCN 与邻接矩阵一起使用,通过特征提取来捕获和表示社会上下文:共享动作、关注政治新闻的动作,以及节点特征矩阵用于通过词嵌入捕获新闻的隐藏内容。迈耶斯等人。 [153]展示了传播特征在假新闻检测模型中的重要作用。作者首先构建了一个传播图来呈现重要信息,然后使用随机森林分类器来训练该图并创建节点嵌入。最后使用GCN模型来预测推文的真实性。与其他传播图不同,作者构建了以下图:令 G = {V , E} 表示传播图,其中 V 是包含推文节点和转发节点的节点集合,E 是推文节点之间连接的边集合及其带有时间权重的转发节点。因此,这个传播图包括一组子图,其中每个子图包括一个推文节点及其转发节点,并且其深度永远不会超过1。
结合 GCN 和马尔可夫随机场(MRF)模型构建了社交垃圾邮件发送者检测模型[201]。首先,作者在有向图上使用卷积来明确考虑各种邻居。然后,他们使用成对 MRF 展示了邻居对用户标签的三种影响(关注、追随者、互惠)。值得注意的是,MRF 被表述为用于多步推理的 RNN。最后,MRF 层堆叠在 GCN 层之上,并通过整个模型的端到端过程进行训练。与传统的 GCN 不同,该模型使用改进的前向传播规则
其中 Ai、Ao、Ab 是邻居类型; ^ Ab = Ab + I; Di、Do、ˆDb 分别为 Ai、Ao、Ab 的度矩阵;节点特征矩阵X = H(0)是基于BoW特征创建的。然后,作者用 GCN 输出初始化 MRF 层的后验概率为
其中 w, w′ ≥ 0 是两个可学习的参数,用于测量 MRF 模型的同质性和异质性强度。该方法展示了GCN和MRF层组合的优越性。多步 MRF 层对于收敛至关重要。然而,节点特征矩阵是通过词袋方法简单创建的。未来可以使用最先进的嵌入模型来改善这一限制。
提出了一种名为 FauxWard [149] 的新型 GCN 框架,通过利用新闻特征(例如语言、语义和结构属性)来进行赝品检测。作者将赝品检测建模为分类问题,并使用 GCN 来解决该问题。 FauxWard 与传统的 GCN 模型类似;然而,与这些模型不同的是,它在图卷积层之间添加了基于集群的池化层,以更有效地学习节点表示。基于簇的池化层首先根据先前图卷积层的节点向量将邻居节点分配到簇中,然后学习簇表示作为后图卷积层的输入。它通过 ̃ A(k) = C (k−1)⊤ ̃ A(k−1)C (k−1) 执行图卷积,其中 ̃ A(k) 是更新后的邻接矩阵; C (k) 是第 k 个图卷积层后得到的聚类矩阵,使得 H(k) = C (k−1)⊤σ ( ̃ A(k−1)H (k−1)W (k −1)),其中 H(0) = X 是节点特征矩阵。与传统的 GCN 不同,这个 X 是通过连接文本内容(例如语言、情感、认可)和图像内容(例如元数据)创建的。
马尔霍特拉等人。 [147]介绍了一种结合RoBERTa和BiLSTM的方法(TD = Bi(RoTa(tweet)),其中RoTa表示RoBERTa模型[207],Bi表示BiLSTM模型)和GCN方法(GD = H(k) = σ ( ˆ AH(k−1)W (k)),其中 H(0) = X 是由 11 个特征连接而成的节点特征矩阵,例如好友数、关注者数、关注者数等),用于谣言检测为 ˆ y = Softmax (concat(TD, GD))。该模型基于谣言特征,例如传播和内容。它利用了推文新闻的结构、语言学和图形方面的特征。
弗拉德等人。 [195]提出了一种基于两个主要组成部分的多模式多任务学习方法:模因识别和仇恨言论检测。第一个结合了 GCN 和意大利 BERT 来表示文本,而第二个是图像表示方法,在不同的基于图像的结构之间有所不同。图像组件采用带有五个 CNN 堆栈的 VGG-16 [208] 来表示图像。文本组件使用两种机制来表示文本,即意大利 BERT 注意力机制和卷积机制。该模型是多模态的,因为它同时考虑与文本和图像内容相关的特征。与此同时,蒙蒂等人。 [3]介绍了一种基于几何深度学习的假新闻检测方法,通过构建异构图数据来整合与新闻相关的信息,例如用户配置文件和交互、网络结构、传播模式和内容。给定一个 URL u 以及一组提到 u 的推文,作者构建了一个图 Gu = {V , E}。 V 是对应于推文及其海报的一组节点。 E 是一组边,表示两个节点之间的四种关系之一:follow、followed、spreading 和 spread。该图具有节点特征矩阵 X 和邻接矩阵 A。X 是通过表征用户特征(例如个人资料、网络结构和推文内容)创建的。然而,矩阵 A 定义如下:如果(节点 vj 传播节点 vi 的推文)或(节点 vi 传播节点 vj 的推文)或(节点 vi 跟随节点 vj)或(节点 vj 跟随节点 vi),则 Aij = 1,否则0;给定矩阵 X 和 A,与传统的 GCN 类似,作者使用了四层 GCN:两个用于节点表示的卷积层和两个全连接层来预测新闻是假还是真的。然而,与之前的一些 GCN 不同,在该提案中,滤波器 [178] 中的一种注意机制和均值池用于减少每个卷积层的特征向量维度。 SELU [209]被用作整个网络的非线性激活函数。
李等人。 [123]提出了一种基于 GCN 的大规模广告反垃圾邮件方法,名为 GAS。与之前的 GCN 不同,在 GAS 模型中,通过集成异构图和同构图的节点和边来构建组合图,以捕获局部和全局评论上下文。 GAS的定义步骤如下: (i)图构建:作者构建了两种类型的图,分别为闲鱼图和评论图。第一个图用 G = {U, I, E} 表示,其中 U、I 分别是代表用户及其项目的节点集,E 是代表评论的边集。该图的邻接关系如下创建:如果用户 i 对项目 j 发表评论 e,则 AX ij = 1,否则为 0。第二个图是通过连接表达具有相似含义的评论的节点来构造的。这意味着如果注释 i 与 j 具有相似的含义,则 AC ij = 1,否则为 0。 (ii) 闲鱼图上的 GCN:令 h(l) e 、 h(l) U(e) 和 h(l) I (e ) 分别为边、用户和项目的第 l 层节点嵌入, ze = h(l) e = σ (W (l) E · concat(h(l−1) e , h(l−1) ) U(e) , h(l−1) I(e) )) 其中 h(0) e = TN(w0, w1, . . . , wn) 且 U(e)、I(e) 是用户节点和边 e 的项目节点。设 h(l) N(u)、h(l) N(i) 是节点 u、i 的邻居嵌入。 TN 代表 TextCNN 模型 [210]。 wk 是推文中单词 k 的词向量。因此,
其中 ∀e = (u, i) ∈ E(i),E(u) 是与 u 连接的边;建立注意力机制。由此,我们有: zu = h(l) u= concat(W (l) U · h(l) u , h(l) N(u)) 和 zi = h(l) i = concat (W ( l) I · h(l) i , h(l) N(i))。 (iii) 评论图上的 GCN:在这一步中,作者使用[211]中提出的 GCN 模型将评论图上的节点表示为节点嵌入为 pe = GCN(X C , AC ),其中 X C 是节点特征矩阵。 (iv) GAS分类器:GAS模型的输出定义为y = classifier(concat(zi, zu, ze, pe))。
5.3. Detection approach based on AGNNs
任等人。 [17] 介绍了一种称为 AA-HGNN 的新颖方法,将用户和社区关系建模为异构信息网络(HIN),用于基于内容和基于上下文的假新闻检测。 AA-HGNN 中使用的主要技术涉及通过学习异构信息网络来改进节点表示过程。在本研究中,AGNN 使用两个级别的注意力机制:节点学习相同邻居的权重,然后通过聚合与每个特定类型邻居相对应的邻居权重来表示它们,并使用模式来学习节点信息,从而获得特定类型邻居表示的最佳权重。假设我们有一个新闻 HIN 和一个新闻 HIN 模式,用 G = {V , E} 和 SG = {VT , ET } 表示。令 V = {C ∪ N ∪ S} 其中 C(创作者)、N(新闻)、S(主题);且 E = {Ec,n ∪ En,s}。令 VT = {θn, θc , θs} 和 ET = {write, ownsto} 表示节点类型和链接类型。节点级注意力定义为 h′ ni = Mθn · hni ,其中 ni ∈ N,hni 是节点 ni 的特征向量。 Mθn 是 θn 类型的变换矩阵。设 T ∈ {C ∪ N ∪ S},tj ∈ T 属于类型邻居 θt 且 tj ∈ neighborni 。设 eθt ij = att(h′ ni , h′ tj ; θt ) 为节点 tj 对 ni 的重要程度,其中 att 为节点级注意力机制,注意力权重系数为 αθt ij = Softmaxj(eθt ij ) 则,模式节点是通过聚合邻居的特征来计算的:Tni = σ ( Σ tj ∈neighborni αθt ij · h′ tj )。设 ωθt i = schema(WTni , WNni ) 为模式节点 Tni 的重要程度,其中 schema 为模式级注意力机制,Nni 为节点 ni 的邻居对应的模式节点。最终的融合系数计算为 βθt i = Softmaxt (ωθt i )。由此,我们得到节点表示为 rni = Σ θt ∈VT β θt i · Tni 。 AA-HGNN 在不使用大量标记数据的情况下仍然可以实现出色的性能,因为它受益于对抗性主动学习。由于其高通用性,它还可以用于与异构图相关的其他实际任务。贝纳米拉等人。 [192]提出了用于二进制文本分类任务的基于内容的假新闻检测方法。目标是基于 GNN 的半监督方法来解决标记数据限制的问题。该方法包括以下步骤:新闻嵌入;基于k近邻图推理的新闻表示;基于GNN的新闻分类,例如AGNN[179]和GCN[164],它们是传统的GNN,没有改进或更新。
5.4. Detection approach based on GAEs
使用自动编码器特殊图数据,Kipf [170]使用GAE对图进行编码以表示图中的潜在结构信息。 GAE 用于各个领域,例如推荐系统[212]和链接预测[213],具有合理的性能。最近,研究人员开始应用 GAE 进行假新闻检测。表 10 总结了之前基于 GAE 的假新闻检测模型的研究。 [124]提出了一种从新闻中捕获文本、传播和结构信息以进行谣言检测的模型。该模型包括三部分:编码器、解码器和检测器。编码器使用 GCN 来表示新闻文本来学习信息,例如文本内容和传播。解码器使用编码器的表示来学习整体新闻结构。检测器还使用编码器的表示来预测事件是否是谣言。解码器和检测器同时实现。这些部分一般定义如下: (i) Encoder 组件:GCN 的两层用于增强学习能力:
其中 σ 是 ReLU 函数。 X表示通过确定TF-IDF值创建的词向量,邻接矩阵A定义如下:如果节点vi响应节点vj,则Aij = 1,否则为0。然后,使用GCN来学习高斯变分 GAE 的分布为 z = μ + εσ ,其中 μ = GCN(H(1), A) 且 logσ = GCN(H(1), A) (μ、σ 和 ε 是平均值、标准差和分别为高斯分布的标准样本)。 (ii) 解码器组件:在此步骤中,使用内积 (⊙) 将邻接矩阵重构为 ̃ A = ⊙(ZZ ⊤),其中 Z 是分布矩阵 z。 (iii) 检测器组件:此步骤旨在表示潜在信息并对新闻进行分类。它被定义为 S = MP(Z ),其中 MP 代表均值池运算符。最后,该模型的输出层定义为 ^ y = Softmax(SW + b),其中 W 是全连接层的参数矩阵。
6. Discussion
6.1. Discussion on GNNs∗-based methods
表 7 比较了之前基于 GNN* 的假新闻检测模型的研究。我们介绍了基于 GNN* 的假新闻检测方法的主要步骤、优点和缺点。我们的一些评估如下:关于提取的特征,[4]仅使用基于用户的特征; [5]使用基于网络、用户和语言学的特征;和[193]使用基于语言的特征(文本分析)。同时,[15]使用了与网络和语言学相关的特征。关于图结构,[4,5,193]构造了一个齐次图。然而,与[4,193]不同的是,仅构建了一张图,而[5]创建了两个子图来表示新闻源和新闻用户。同时,[15]构建了一个具有两种类型的节点和边的异构图。然而,虽然[15]的图结构比其他三个模型更好,但[192]提供了最好的性能。这个结果可能是因为[5]可以更好地提取假新闻检测中有意义的特征。因此,未来开发新的基于GNN*的模型,应该更多地关注提取优秀的特征和构建良好的标准数据,而不是专注于改进图结构。
6.2. Discussion on GCNs-based methods
表8和表9比较了之前基于GCN的假新闻检测模型的研究。我们介绍了基于GCN的假新闻检测方法的主要步骤、优点和缺点。在我们的评估中,[3,14,16,123,191]和[196]等方法显示出最佳效率,其中两种方法用于假新闻检测,两种方法用于谣言检测,两种方法用于垃圾邮件分类。对于第一类中的两篇论文,[3]是第一个将GCN应用于假新闻检测的论文。该方法侧重于提取基于用户、基于网络和基于语言的特征来构建基于传播的异构 GCN。作者确定该提案可以获得比基于内容的方法更有希望的结果。相反,[14]是一个具有双重注意力机制的富集 GCN。该方法使用基于用户和基于语言的特征来构建具有双重关注机制的同质 GCN。在我们的评估中,虽然[14]使用了双重注意力机制,但效率仍然低于[3]。值得注意的是,这个结果主要归因于[3]比[14]提取了更多的特征。此外,[3] 中使用的图结构被评估为比 [14] 中使用的结构更好。展望未来,我们希望通过同时使用基于用户、基于网络和基于语言的特征构建双注意力异构 GCN 来提高假新闻检测方法的性能。对于第二类中的两篇论文,这两种方法都是通过基于传播的 GCN 来检测谣言的。不同之处在于[16]构建了双向GCN来同时捕获谣言传播结构和谣言传播模式。同时,[196]基于多阶邻居的信息创建了单向GCN来捕获谣言源。
在我们看来,[16]可以优于[196],因为谣言检测、谣言传播和传播比谣言源更重要。对于最后一类的两篇论文,[123,191] 也提出了使用基于社交上下文的 GCN 进行垃圾邮件检测的类似方法。不同之处在于,[123]构建了一个集成异构图和同构图的模型来捕获本地和全球新闻上下文。相比之下,[191]仅构建了一个异构图来捕获一般新闻上下文。我们认为,[123]中提出的模型比[191]中的方法更容易理解,可以重新实现,并且产生稍微更好的结果。造成这一结果的原因是,构建每种类型的图都适合对每种类型的上下文进行捕获和集成,这比为所有上下文构建一个图更能全面地捕获新闻上下文。因此,在构建基于 GNN 的假新闻检测模型时,应该构建不同的图来捕获每种特定类型的信息,然后执行融合步骤。与构建一种类型的图表来捕获所有类型的信息相比,这种方法有望提供更好的性能。我们最大限度地限制一般图的构造,然后将其划分为特定类型,因为图的分解很容易导致边之间关系的信息丢失。
6.3. Discussion on AGNNs- and GAEs-based methods
表 10 比较了之前基于 AGNN 和 GAE 的假新闻检测模型的研究。我们介绍了两种方法在 AGNN 和 AGE 类别中用于假新闻检测的主要步骤、优点和缺点。显然,[17]提出了比[192]更详细的假新闻检测方法。另外,[17]中的方法是在[192]之后提出的;因此,它比[192]更好。例如,[192]构建了一个同构图,而[17]创建了一个异构图。异构图被评价为优于同构图,因为它可以捕获更有意义的信息。因此,它获得了比[192]更好的结果。与此同时,林等人。 [124]方法使用传统的 GCN 变体来编码图的潜在表示。该方法可以高效捕获整个结构信息。因此,它可以通过添加两个组件(即解码器和检测器)来丰富传统的 GCN。然而,本研究仅关注基于用户和基于语言的特征,忽略了基于网络的特征;因此,预计不会达到预期的效果。
7. Challenges
7.1. Fake news detection challenges
根据假新闻检测领域的最新出版物,我们总结并将挑战分为五类,其中每一类挑战对应于一类假新闻检测。每种类型挑战的详细信息如图 6 所示。以下提出了可能成为假新闻检测未来方向的重大挑战。 Deepfake [214] 是一种超现实的数字控制视频,显示人们所说或所做的事情从未真正发生过,或基于人工智能技术生成的合成文档。鉴于这些造假技术的复杂性,由于描述捏造,确定公开露面或影响者声明的真实性具有挑战性。因此,Deepfake目前对假新闻检测提出了重大挑战。黑客影响者的账户传播假新闻或有关名人本人演讲的虚假信息也是假新闻检测中的一个独特现象。然而,当这些帐户的实际所有者发现并纠正它们时,这些信息将很快被删除。然而,这些信息一旦传播开来,就会造成极其恶劣的影响。因此,即时检测影响者的帖子是否虚假已成为一项重要挑战。新闻可能在某个时间点是假的,而在另一个时间点是真实的。也就是说,消息是真是假,取决于它被说出来和传播的时间。因此,实时假新闻检测尚未得到彻底解决。
构建基准数据集并确定与每种假新闻检测方法相对应的标准特征集仍然是挑战。凯舒等人。 [215]通过四个嵌入组件:新闻内容、新闻用户、用户与新闻交互和发布者新闻关系,同时有效地提取内容、上下文和传播特征,构建了第一个假新闻检测方法。然后,这四个嵌入被输入到半监督分类方法中,以学习未标记新闻的分类函数。此外,该方法还可用于假新闻的早期检测。鲁昌斯基等人。 [28]通过提取用户行为、新闻行为以及假新闻传播者的群体行为,构建了更准确的假新闻预测模型。然后,将三个功能输入到该架构中,包括以下三个模块:(i)使用循环神经网络通过新闻和传播者行为来捕获用户对给定新闻的时间活动; (ii) 通过用户行为了解新闻来源; (iii) 集成前两个模块,以高精度检测假新闻。从这项文献调查中,我们发现最有效的方法结合了内容、背景和传播的特征。尽管这些组合方法所使用的算法复杂度高、提取的特征多、特征维度高,但它们可以同时捕获假新闻的各个方面。因此,同时提取内容、传播模式和用户立场的最有效且成本最低的方法不仅是一个有前途的解决方案,也是假新闻检测的重大挑战。
7.2. Challenges related to graph neural networks
在研究相关文献的基础上,本节总结了基于 GNN 的方法的一些挑战,然后确定了未来可能的方向。大多数传统的 GNN 使用无向图和边权重作为二进制值(1 和 0)[216],不适合许多实际任务。例如,在图聚类中,寻求满足两个条件的图划分:(i)不同组之间的边权重之间的差异尽可能小;(i)不同组之间的边权重之间的差异尽可能小。 (ii) 相似组之间的边权重差异尽可能大。这里,如果边的权重是二进制值,则无法使用该图解决给定问题。因此,未来的研究可以尽可能地以边的权重作为代表节点之间关系的实际值来构造图。
消极情绪,因为他们忽视了“非常”的影响。因此,改进基于 GNN 的模型的未来方向应侧重于根据句子嵌入或重要短语嵌入确定节点特征。在句子中同时捕获上下文、内容、语义关系和情感知识对于基于 GNN 的 NLP 任务至关重要。与此同时,只有少数研究通过灵活的 GNN 整合了其中一些功能,以提高 NLP 任务的效率,包括假新闻检测。例如,在[217]中,作者通过 GNN 提取常识知识和语法,而在[218]中,作者通过表示文档-单词关系和单词共现构建了一个基于文本的 GNN。据我们所知,没有一个 GNN 能够同时考虑所有内容、上下文、常识知识和语义关系。对于基于 NLP 任务的 GNN 来说,这项任务仍然是一个令人兴奋的挑战。到目前为止,由于梯度消失,GCN 仅限于几个层(两层或三层),这限制了它们的实际应用。例如,[217,219,220]中的 GCN 由于梯度误差消失而停在两层。因此,利用深度学习算法在模糊句法图、模糊知识图和模糊上下文图的组合图上构建句法、知识和上下文的深度模糊GCN,可以解决先前方面方法的上述局限性。情绪分析。
8. Conclusion and open issues
基于 GNN 的假新闻检测相对较新。因此,已发表的研究数量有限。尽管我们没有在相同的数据集上实施 27 篇研究中提出的方法,也没有根据相同的比较标准评估其效率,但这里调查的 27 篇论文表明,该方法最初获得了优异的结果。此外,需要解决许多挑战才能取得更全面的结果,我们在相应章节的末尾对此进行了讨论。尽管如此,鉴于 27 篇接受调查的论文,预计未来的结果是有希望的。通过解决这些挑战,我们希望提高基于 GNN 的假新闻检测的有效性。以下段落分析了基于 GNN 的假新闻检测的一些挑战并讨论了未来的方向。基准数据:最近,一些研究人员认为,在训练系统时,数据对系统性能的影响比算法更大[221]。然而,在我们的评估中,我们没有图学习社区中用于假新闻检测的图基准数据。基于图的假新闻检测基准可能为未来的研究提供机会和方向。兼容的硬件:随着Deepfake的快速增长,表示这些数据的图形将变得更加复杂。然而,GNN 的可扩展性越高,算法的价格和复杂性就越高。科学家经常使用图聚类或图采样来解决这个问题,而忽略了使用这些技术的图的信息丢失。因此,未来图的可扩展性可能会通过开发适合图结构的专用硬件来解决。例如,GPU 在降低深度学习算法的价格和提高速度方面取得了巨大的飞跃。假新闻早期发现:假新闻早期发现是指在假新闻广泛传播之前及早发现,以便人们及早干预、及早预防、限制其危害。假新闻的早期发现必须尽快完成,因为假新闻传播得越广泛,认证效应就越容易发挥作用,意味着人们就越有可能相信这些信息。目前,对于假新闻的早期检测,人们往往专注于分析新闻内容和新闻上下文,这带来了三个挑战。首先,新新闻的出现往往会带来新的知识,而这些新的知识尚未存储在现有的信任知识图谱中,无法在新闻出现时立即更新。其次,假新闻往往内容相同但欺骗性文字不同风格并同时出现在许多不同的领域。最后,与新闻内容、新闻上下文、新闻传播和潜在信息相关的有限信息可能会对基于 GNN 的检测方法的性能产生不利影响。动态GNN:当前基于GNN的假新闻检测方法中使用的大多数图都具有静态结构,难以实时更新。相比之下,新闻的真实性会随着时间的推移而不断变化。因此,有必要构建时空上能够随实时信息变化的动态图。异构 GNN:当前大多数基于 GNN 的假新闻检测模型都构建同构图。然而,很难在这些图表上同时表示所有的新闻文本、图像和视频。因此,使用包含不同类型的边和节点的异构图是未来的研究方向。新的 GNN 适用于假新闻检测领域所需的异构图。多重 GNN:正如第 7.2 节中分析的那样,大多数基于 GNN 的假新闻检测方法都专注于独立使用传播、内容或上下文特征进行分类。很少有方法使用这三个特征中的两个的组合。没有一种方法可以在一个模型中同时使用传播、内容和上下文的混合。因此,这个问题也是当前假新闻检测的一个挑战。未来,研究应该通过构建多重图来构建 GNN 模型,以相同的结构表示新闻传播、内容和上下文。