论文导读 | 事件因果关系抽取和识别

导读

目前，对事件因果关系的研究主要分为两类任务：事件因果关系识别（Event Causality Identification，ECI）和事件因果关系抽取（Event Causality Extraction）。事件因果关系识别旨在检测文本中两个事件提及之间是否存在因果关系。而事件因果关系抽取则是信息抽取中的一项具有挑战性的任务，其目标是自动提取事件描述并确定事件之间的因果关系。

研究事件之间的因果关系对于许多下游应用程序非常重要，例如知识获取、问答、情感分析和摘要等。

本文将介绍四篇研究事件因果关系的论文，论文的标题和信息如下所示：

文章列表：

[1] Joint event causality extraction using dual-channel enhanced neural network (Knowledge-Based Systems, 2022)

[2] KEPT: Knowledge Enhanced Prompt Tuning for event causality identification（Knowledge-Based Systems，2023）

[3] Explicit and implicit knowledge-enhanced model for event causality identification（Expert Systems With Applications，2024）

[4] Event causality identification via graph contrast-based knowledgeaugmented networks（Information Sciences，2024）

使用双通道增强神经网络进行联合事件因果抽取

Joint event causality extraction using dual-channel enhanced neural network (Knowledge-Based Systems, 2022)

动机

本文主要面向句子级的事件因果抽取任务。该任务的现有方法通常侧重于文本内容，而忽略了事件内部元素之间的转换以及事件之间的因果关系转换，本文提出了一种可以考虑全局事件提及和事件间因果关系转换关联的双通道增强神经网络模型。

方法

设计思路：如图1-1所示，首先构建了一个文本增强通道(TEC)，以提取完整的事件提及。然后，利用图卷积网络(GCN)构建知识增强通道(KEC)整合外部因果关系转迁移知识，以提供事件因果关系的补充信息。最后，设计一个动态的注意机制融合双通道信息。

图1-1 模型图

具体模型

1、文本增强通道

构建过程如图1-2所示，该模块利用迭代空洞卷积去提取完整的事件提及特征以及捕获句子中的上下文信息。具体可以分为n-gram挑选和过滤器初始化两个步骤。

图1-2 文本增强通道图

（1）n-gram挑选

使用朴素贝叶斯的方法对标记数据中的因果 n-gram进行评分，具体的评分方法如下所示：

其中，c 和 e 分别表示因果关系的因果和效应。nci 表示在因果 c 中包含 n-gram i 的句子数量。||nc||1 表示因果 c 中的 n-gram 数量，b 是一个平滑参数。抽取前20%的n-gram输入BERT生成语义特征，然后利用聚类方法将语义上相似的 n-gram 的语义特征进行聚合，生成高级别的 n-gram 语义表示。

（2）过滤器初始化

利用高级别的 n-gram 语义表示初始化部分迭代空洞卷积滤波器，对于每个词xt的卷积算子计算如下:

其中，⊕表示向量连接操作，Wc 是 r 个词的滤波器宽度，δ 表示空洞宽度。

2、知识增强通道

图1-3 因果关联转化图构建

（1）因果关联转化图（CTG）构建：CTG的构建如图1-3所示，分为三步：

a. 因果句子识别，使用因果指示词 (CIW) 从未标记的新闻文本中识别包含因果关系的句子，包括 CIW 构建、CIW 扩展、CIW 消歧；

b.事件核心检测，事件核心是一个可以描述一个事件的有意义语义单位，它可以是一个单词或一个短语；

c.因果关联转化计算，给定一组通过事件块检测预处理的因果句子，我们通过以事件描述的关键词wi为节点，关键词间的因果关联转化权重为边可以构造CTG，详细的权重计算公式如下:

其中co(wi → wj) 表示从 cause 词 wi 到 effect 词 wj 的共现频率，DF(wi) 表示包含词 wi 的句子数量。

（2）基于CTG的图卷积网络（GCN）编码：本文使用图卷积网络（GCN）编码 CTG 中节点之间的因果关联转换信息。

3、双通道融合：使用多头注意力机制融合双通道信息。

4、目标函数：利用双向长短期记忆网络（BiLSTM）学习语义特征，然后使用条件随机场（CRF）对BiLSTM输出的标签序列进行解码。

实验

实验数据集：The Financial dataset、CEC (Chinese emergency corpus) dataset和SemEval-2010 task 8 dataset

实验评价指标：F1

实验结果与结论

表1-1 整体实验结果

表1-2 消融实验结果

表1-1展示了本文方法与其他基线方法的结果比较表1-2展示了模型的消融实验结果，可以得到以下观察结果：

1）相比于BERT+CISA和BERT+SCITE的优越性验证了双通道增强方法的有效性。

2）基于BERT的方法明显优于非BERT方法。这主要是因为预训练模型BERT是从大规模语料库中训练得到的，其中包含大量的先验知识，并且已经被证明适用于许多NLP任务。

3）事件因果抽取是事件抽取和因果关系识别的联合提取任务。两种基于BERT的方法只考虑事件的先验知识，但忽略了互联网上存在的大量因果知识对模型的影响。我们的方法通过知识增强通道和文本增强通道将先验知识和数据特征整合到模型中，提高了模型抽取因果事件的能力。

4）通过模块消融实验，证明了模型的所有部分对于 ECE 任务都是有用的。其中BERT 的贡献对模型的影响最大，这得益于其在大规模语料库中的预训练。

用于事件因果识别知识增强的提示学习

KEPT: Knowledge Enhanced Prompt Tuning for event causality identification（Knowledge-Based Systems，2023）

动机

本文专注于句子级事件因果关系识别任务。现有方法存在两个主要问题：（1）缺乏足够的因果推理能力，限制了对隐含因果关系的识别；（2）微调和预训练之间存在显著差距，影响了对预训练语言模型（PLMs）的利用。为解决以上问题，本文提出了一种利用提示学习（Prompt Tuning）整合外部知识库（KBs）中的背景知识和关联知识，用于因果推理的方法。

方法

设计思路：本文提出了一种新的知识增强的提示学习（Prompt Tuning）框架。该框架首先根据事件对构建一个提示模板，然后从外部知识库获取背景信息和关系信息。紧接着，将输入文本、提示模板和关系信息拼接成一个序列，输入预训练语言模型生成上下文表示。最终，模型通过预测掩码位置上的答案词来输出因果关系结果。

图2-1 模型图

具体模型

1、提示构造

构建提示模板和答案词。给定earthquake和destroyed两个事件，提示模板设计如下：

其中 [Es]，[/Es] 和 [Et]，[/Et] 是分别指示源事件和目标事件边界的特殊指示词；[MASK] 表示预训练语言模型预测的掩码位置。本文利用在掩码位置预测是或否的概率来分别表示存在因关系或不存在因果关系的概率。

2、知识获取

（1）背景信息获取：给定一个句子中的事件对，模型首先从ConceptNet[1]中检索每个事件的相关三元组，然后将他们转化为文本描述，最终将这些描述组合形成事件的背景信息。

（2）关系信息获取：模型从ConceptNet中检索两个事件之间的路径作为关系路径，使用NetworkX工具包找到两个事件之间的最短路径，若存在多条则随机选择其中一条。然后，从关系路径中提取相关的三元组，并将它们转换为文本描述，最终将这些描述拼接形成事件对的关系信息。

3、编码模块

我们将输入文本xs、提示模板xt和关系信息xr拼接成输入序列,具体如下：

其中 [CLS] 和 [SEP] 是特殊占位符,⊕表示拼接操作，然后利用BERT对输入序列进行编码。

此外，采用另一个预训练的 BERT 模型对背景信息进行编码获取背景信息的表示，值得注意的是两个BERT模型参数共享。

4、知识注入

（1）选择性注意机制

为了减轻不相关知识的影响，本文设计了一种选择性注意机制，其中关系信息仅对模板和事件可见。注意掩码矩阵定义如下：

其中wi, wj是来自输入序列Xs的任意两个标记，0表示从令牌wi到令牌wj存在注意，−∞表示从令牌wi到令牌wj没有注意力，E表示来自输入文本的事件标记。

（2）交互式注意力机制：本文使用多头注意机制实现事件及其背景信息间的交互和融合。

5、因果关系表示

本文采用 TransE联合优化因果关系和事件的表示，以进一步捕获事件之间的隐式关系。其中，本模块定义了一个训练损失Lk，如下：

其中，σ(·)是sigmoid函数，(h′i, r, t′i) 代表负样本，γ是边界，dr(·)是评分函数。

6、模型训练和预测

模型使用 [MASK] 的表示预测标签词，训练损失Lm，如下所示:

其中 X 是训练样本的集合，v(·) 是动词器，最终的损失如下：

其中 α 是权重系数。

实验

实验数据集：EventStoryLine (ESL)和Causal-TimeBank (CTB)

实验评价指标：P、R、F1

实验结果与结论

表2-1 ESL实验结果

表2-2 CTB实验结果

整体实验结果分析

1）本文所提的方法取得了最佳的F1，验证了方法的有效性；

2）相较于微调的方法，本文的模型有较大的提升，表明仅微调的方式并不足以解决ECI任务，同时验证了本文方法中提示调整和因果关系表示学习的有效性。

3）利用了BERT的方法表现优于未使用BERT的方法。这表明预训练语言模型具备较强的挖掘文本重要特征能力，同时本文的方法可以进一步提高BERT的因果推理能力，并为ECI任务引入丰富的外部知识。

4）本文的方法相较于仅提示学习方法的提升，证明了为事件引入背景信息和事件之间的关系信息对于ECI任务是有效的。

5）本文模型的结果远高于使用相同的外部知识库（KMMG和LSIN）的方法，这证明了本文将相关三元组转换为文本描述的方法可以充分利用外部知识，取得了更好的性能。

表2-3 ESL消融实验结果

消融实验结果分析

1）删除每个组件后性能都变差，这证明了模型的所有模块都是有效的。

2）在删除背景信息和交互式注意机制后性能下降，这说明背景信息可以为事件提供额外的背景知识，同时交互式注意机制可以促进事件与背景信息之间的交互，并使模型从外部知识中捕获重要特征。

3）删除关系信息后性能下降明显，可能的原因是关系信息包含有利于因果推理的事件之间的有用因果线索，而本文的模型可以充分利用ConceptNet中的因果线索，从而提高了模型的性能。

4）删除选择性注意机制时，模型性能下降，这表明关系信息的融合引入了噪音并改变了文本的文本含义，而选择性注意机制的引入可以减轻关系信息对输入文本的影响，并仅保留与因果推理相关的知识。

5）删除因果关系表示学习后，性能下降，表明知识表示学习可以有效优化因果关系的表示，并细化提示学习所预测的结果。

表2-4 ESL未见事件的实验结果

未见事件的影响

本文对EventStoryLine上的未见事件的模型性能进行评估，随机选择了1/3的文档构成训练集。依据训练集中的所有事件构建已见事件集。剩下的文档被分为三组：a.两个事件均出现在已见事件集；b.事件对中只有一个事件出现在已见事件集；c.两个事件均未出现在已见事件集。表2-4显示本文所提模型在三种测试集中均取得了最优结果，同时提示学习的结果优于微调，这说明提示学习可以挖掘预训练语言模型中的特定知识，而外部知识可以进一步提高模型的因果推理能力。

图2-2 ESL中不同最长关系路径长度下的性能

关系路径长度的影响

从图2-2中可以观察到，总体是先上升后下降的趋势，当最长关系路径设置为5时，模型达到了最佳性能。这可能是因为当关系路径大于5时，即表示两个事件关联性较低，将会包含大量无用信息。当最长关系路径小于5时，将导致许多事件对之间没有关系路径。

用于事件因果识别的显式和隐式知识增强模型

Explicit and implicit knowledge-enhanced model for event causality identification（Expert Systems With Applications，2024）

动机

本文专注于句子级事件因果关系识别任务。尽管现有工作大多侧重于上下文学习和外部知识整合，已有方法能够将隐式因果知识（如常识知识图等）或显式因果知识（如因果指示词等）整合到模型中，但尚未有工作能够同时融合显式和隐式因果知识。因此，本文提出了一种综合模型，能够将显式的因果指示词和隐式的因果知识与数据驱动模型相结合

方法

设计思路：整体模型如图3-1所示，首先通过BERT和BiLSTM对输入句子进行编码生成上下文感知词嵌入，然后分别输入数据驱动、显式因果指示词、隐式因果知识三个模块获取三种表示，最后拼接输入分类器。对于数据驱动模块，构建了一个事件对图，并采用关系图卷积网络（R-GCN）来学习事件对的表示。对于显式因果指示词模块，将因果指示词和卷积神经网络（CNN）结合起来挖掘文本中的因果线索。对于隐式因果知识模块，设计了一个因果匹配机制，并应用COMET[2]来捕获事件的隐式因果知识。

图3-1 模型图

具体模型

1、编码器

通过BERT和BiLSTM对原始句子进行编码，获取事件的表示。

2、数据驱动模块

依据输入句子，以事件对为节点构建一个无向事件对图，当两个事件对至少共享一个事件时进行连边，根据事件在原因和结果的位置设置不同的边类型，最后应用关系图卷积网络（R-GCN）学习新的事件表示。

3、显式因果指示词模块

从FrameNe[3]中获取包含因果信息的词汇单元形成因果指示词词汇表。基于因果指示词的词嵌入初始化CNN中的滤波器，一个因果指示词对应一个CNN滤波器，最后利用CNN为每个候选事件对生成语义表示。

4、隐式因果知识模块

对于事件对ei，ej, 本文利用COMET生成ei的可能结果和ej的潜在原因，采用余弦相似度设计了一种事件对的相似度计算方式，最后将最大相似度得分通过一个在训练过程中更新的可学习嵌入查找表映射成一个可学习的嵌入𝑠𝑝，具体计算方式如下：

其中，𝑥𝑒𝑖 , 𝑥𝑒𝑗分别是编码器生成𝑒𝑖 和 𝑒𝑗 的上下文表示， 𝑣𝑐𝑎𝑢𝑠𝑒𝑠_𝑒𝑗是 𝑒𝑗 的潜在原因的向量表示，𝑣effect_𝑒i是𝑒i 的可能结果的向量表示，𝜖 是一个尺度因子，E是嵌入查找表。

其中wi, wj是来自输入序列Xs的任意两个标记，0表示从令牌wi到令牌wj存在注意，−∞表示从令牌wi到令牌wj没有注意力，E表示来自输入文本的事件标记。

5、三种模块集成

最后将3 个模块产生的三种特征拼接后输入mlp进行最终分类，损失函数如下所示：

其中𝑚是训练样本的数量，𝜔是权重因子。

实验

实验数据集：EventStoryLine、Causal-TimeBank和EventCausalityData

实验评价指标：P、R、F1

实验结果与结论

表3-1 EventStoryLine、Causal-TimeBank实验结果

表3-2 EventCausalityData实验结果

整体实验结果分析

1）本文所提的方法取得了最佳的F1，验证了方法的有效性；

2）与ERGO相比的提升，证明了整合显式和隐式知识的有效性；

3）在EventCausalityData这个极小的数据集上的结果提升，证明了当训练数据极度不足时，引入外部知识模型能够更好地处理未见或罕见情况。

表3-3 消融实验结果

消融实验结果分析

1）删除任何一个模块后后性能都变差，这证明了各模块的有效性；

2）数据驱动模块的消融验证了习个体对之间相互作用的重要性；

3）显式因果指示词模块的消融证明了尤其是在小数据集上考虑因果指示词的必要性；

4）隐式因果知识模块的消融表明不适当的知识整合可能对模型有害，而本文所使用的因果匹配是一种理想的知识整合方法。

基于图对比的知识增强网络进行事件因果识别

Event causality identification via graph contrast-based knowledgeaugmented networks（Information Sciences，2024）

动机

本文专注于句子级事件因果关系识别任务。目前的方法存在两个主要问题：一是它们忽略了事件的背景知识，二是它们未考虑到知识图噪声对事件表示的干扰。为了解决这些问题，本文提出了一种新的方法，即基于图的对比知识增强网络(GCKAN)，旨在集成知识图中事件的全面背景知识，以缓解知识图噪声对识别任务的影响。

方法

设计思路：模型图如图4-1所示，首先构造了一个描述性知识增强模块，用于聚合知识图中的一跳邻居信息，并学习事件的有意义的描述性知识。接着设计了一个关系知识增强模块，用于编码多跳路径信息，并学习事件对之间的潜在推理知识。同时在这两个模块中分别设计了基于可信度和基于度的图对比学习模式，用于在信息聚合过程中抑制知识图噪声，并推导出更加健壮的知识感知型事件表示。

图4-1 模型图

具体模型

1、上下文编码器

使用BERT编码句子生成句子和事件的上下文表示。

2、描述性知识增强

（1）构建邻接图：根据给定的事件对，通过搜索外部知识库ConceptNet去构建事件的一跳邻居图。

（2）描述性知识聚合

本文设计了一种关系感知的异构图注意力网络基于一跳邻居图学习事件的描述性知识，具体形式如下：

其中，𝑁𝑖是与事件𝑒𝑖相连接的邻居集合，𝐱𝑖，𝐱𝑛，𝐫𝑖𝑛分别表示事件𝑒𝑖，事件𝑒𝑛，和关系边𝑟𝑖𝑛的嵌入，𝛼𝑖𝑛表示考虑了关系的语义和方向性的估计关系和事件特定的注意力相关性，𝑊𝑐和𝑊𝛼表示可学习的参数权重矩阵。

此外为了增强事件邻居依赖关系的多关系语义表示空间，本文应用了基于BERT的 TransE[4]方法来学习知识图中的概念和关系表示。

（3）基于可信度的图对比学习

本文提出了通过辅助自监督信号将知识图嵌入和对比学习范式相结合的方法。通过最大化增强视图之间的互信息并使用对比目标正则化表示学习，降低学到的描述性知识感知事件表示对于与嘈杂邻居连边的敏感度。

首先利用余弦相似度测量函数 𝑠(⋅) 测量三元组的置信度win，根据置信度计算保持三元组的估计概率Pin，具体计算方式如下:

其中𝑝𝜏是截断概率，𝑝a是影响因子，μp是均值。

基于伯努利分布生成一个掩码向量 𝑴𝑁𝑖 ∈ {0, 1}实现对原始邻居图的采样，生成增强子图𝜂(𝐺𝑁𝑖)。

接着利用关系感知的图注意力网络来增强子图并学习节点表示，即：

其中，𝐱′𝑖 表示从增强子图 𝜂(𝐺𝑁𝑖) 获得的事件概念 𝑒𝑖 的表示。

最后将同一节点的表示对视为正样本（即 (𝐱𝑖 , 𝐱′𝑖) ∣ 𝑖 ∈ 𝑉 ），将不同节点的表示对视为负样本（即 (𝐱𝑖 , 𝐱′𝑛) ∣ 𝑖, 𝑛 ∈ 𝑉 , 𝑖 ≠ 𝑛），本文遵循 SimCLR[5]并采用对比损失 InfoNCE [6]来最大化正样本的一致性并最小化负正样本的一致性，即：

其中τ 是超参数。

3、关系知识增强

（1）关系知识聚合

给定一个事件对ei,ej，本文首先利用NetworkX1从ConceptNet中检索事件之间的多跳路径，保留其中比 𝑙 更短的路径。针对已保留的路径，本文将路径分解为一组三元组，采用TransE的评分函数对路径进行评分，选择评分前6的路径构建路径图𝐺pij。

本文采用关系感知的图注意力网络对路径图𝐺pij进行编码学习事件概念表示u𝑖，此外采用BiLSTM编码每条路径的表示，具体如下:

其中𝑃ij[𝑘]表示事件𝑒𝑖和𝑒𝑗之间的第𝑘条路径，𝐡′ij𝑘 是第一个和最后一个隐藏状态的连接，表示路径 𝑃ij[𝑘]，然后采用路径注意机制融合生成最终的路径表示。

（2）基于度的图对比学习

本文针对𝐺pij提出一种基于度的图对比学习方法，具体来说，首先依据节点的度对路径图进行采样，生成路径增强子图（度越大的保留概率越大），然后基于关系感知的图注意力网络对子图进行编码，生成子图事件表示，然后采用对比损失 InfoNCE最大化原始图和子图中事件表示之间的相似性，即：

4、模型预测和训练：

本文将基于上下文的表示、描述性的知识感知表示和关系知识感知表示拼接后作为最终表示进行分类。训练期间的损失函数设置如下:

其中，𝑠是训练数据集𝐷中一个句子，𝐸𝑠表示句子𝑠中的事件集，𝑦𝑒𝑖,𝑒𝑗表示𝑒𝑖和𝑒𝑗之间的真实标签。

最终的损失函数如下所示：

其中，Θ是𝐿𝑚𝑎𝑖𝑛中的模型参数集，𝜆1和𝜆2是控制自监督学习和正则化强度的超参数。

实验

实验数据集：EventStoryLine、Causal-TimeBank和SemEval-2010-Task-8

实验评价指标：P、R、F1

实验结果与结论

表4-1 EventStoryLine数据集实验结果

表4-2 Causal-TimeBank数据集实验结果

整体实验结果分析

1）本文所提的GCKAN方法取得了最佳的F1，验证了方法的有效性，说明通过图对比学习增强了背景知识，并学习了具有鲁棒性的知识感知事件表示；

2）与LSIN方法相比所有指标的提升，证明了应用了图对比学习能够减轻了无关节点的噪声，并通过自监督信号学习了更鲁棒的事件表示从而提高了精确度分数，以及通过考虑关系的语义和方向并集成了多路径信息可以为ECI提供更多有用的知识从而提高召回率；

3）与知识引导的数据增强方法（即KnowDis、LearnDA和CauSeRL）相比，直接将知识整合到事件表示学习中的方法（即KMMG、LSIN、KEPT和GCKAN）具有更低的召回率和更高的精确度，这表明直接将背景知识整合到事件表示能够帮助模型更好地理解所提及的事件，从而提高置信度；

4）基于BERT的方法表现不如通过外部知识增强的模型，这表明有限的标注数据限制了BERT的性能，而外部知识可以提供补充信息。

表4-3 消融实验结果

消融实验结果分析

设计了5种消融模型：DKAN，采用了没有图对比学习的描述性知识聚合模块；DKAN+TCL，基于DKAN采用了基于可信度的图对比学习方法；RKAN，应用了没有图对比学习的关系知识聚合模块；RKAN+SDCL，基于RKAN应用了我们的基于度的图对比学习；DRKAN，考虑了描述性和关系性知识但没有图对比学习。从表4-3中可以观察到以下结果：

1）与BERT相比，DKAN和RKAN都提高了性能，这表明单跳描述性知识或多跳关系性知识都可以作为补充信息来缓解数据稀缺性问题。此外，DKAN+TCL和RKAN+SDCL进一步提高了准确度和F1分数，这表明图对比学习模式使得学习到的知识感知事件表示对噪声连接具有更强的鲁棒性；

2）KAN优于DKAN，说明对于一些具有隐含因果关系的事件对，多跳路径在提供事件因果推理线索方面具有优势；

3）描述性知识对于直接因果关系的事件对更重要，而关系性知识对于具有隐含因果关系的事件对更重要。这两种知识相辅相成，能够实现更好的性能；

4）图对比学习可以缓解冗余知识并进行可靠预测。

表4-4 噪声相互作用的鲁棒性实验结果

图4-2 DRKAN和GCKAN对比图

噪声相互作用的鲁棒性实验：本文分别将10%的噪声三元组随机添加到邻居图和路径图中，测试集保持不变，以模拟收集的知识图数据中存在大量与事件无关的概念的情况。从表4-4中可以看出GCKAN受到的噪声影响较小，并通过将自监督信号纳入DRKAN中提高了鲁棒性。图4-2可视化展示了训练过程中DRKAN和GCKAN的一个样本事件表示，点越接近，表示越相似。

图4-3 跨主题泛化结果对比图

表4-5 SemEval-2010-Task-8数据集泛化实验结果

模型泛化验证实验

（1）跨主题适应实验：本文在一个源主题上训练GCKAN模型，然后在与源主题相似性最高、中等和最低的主题作为目标主题上进行测试。图4-3的结果表明，在跨主题适应中，本文所提模型表现最优，此外基于知识增强的方法要更稳定一些。

（2）模型泛化能力实验：本文在另一个通用领域数据集SemEval-2010-Task-8上进行评估。结果如表4-5所示，说明通过将背景知识注入事件表示中，模型可以更好地理解训练数据集中未见的事件语义和隐含的因果线索，提高了泛化能力。此外，本文的GCKAN方法性能最高，表明了所提出的基于图对比的知识增强方法的泛化能力。

总结

Summary

通过上述四篇论文的学习，我们对事件因果关系的研究方法有了更深刻的认知。针对ECE任务，第一篇论文提出了一种双通道增强神经网络模型，该模型考虑了全局事件提及以及事件间的因果关系转换关联针对ECI任务，第二篇论文提出了一种利用提示学习（Prompt Tuning）的方法，该方法整合了外部知识库（KBs）中的背景知识和关联知识，用于因果推理。第三篇论文提出了一种综合模型，将显式的因果指示词和隐式的因果知识与数据驱动模型相结合。第四篇论文则提出了一种基于图的对比知识增强网络（GCKAN），该方法利用知识图中事件的全面背景知识，以减轻知识图噪声的影响。

这四篇论文都通过引入外部知识来增强模型的能力，并取得了显著的实验结果，证明了外部知识的引入确实可以提高模型的泛化能力和鲁棒性。

参考文献

References

[1] SPEER R, CHIN J, HAVASI C. ConceptNet 5.5: An Open Multilingual Graph of General Knowledge[J/OL]. Proceedings of the AAAI Conference on Artificial Intelligence, 2022. http://dx.doi.org/10.1609/aaai.v31i1.11164. DOI:10.1609/aaai.v31i1.11164.

[2] BOSSELUT A, RASHKIN H, SAP M, et al. COMET: Commonsense Transformers for Automatic Knowledge Graph Construction[C/OL]//Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, Florence, Italy. 2019. http://dx.doi.org/10.18653/v1/p19-1470. DOI:10.18653/v1/p19-1470.

[3] Ruppenhofer J, Ellsworth M, Schwarzer-Petruck M, et al. FrameNet II: Extended theory and practice[R]. International Computer Science Institute, 2016.

[4] BORDES A, USUNIER N, GARCIA-DURAN A, et al. Translating Embeddings for Modeling Multi-relational Data[J]. Le Centre pour la Communication Scientifique Directe - HAL - Inria,Le Centre pour la Communication Scientifique Directe - HAL - Inria, 2013.

[5] CHEN T, KORNBLITH S, NOROUZI M, et al. A Simple Framework for Contrastive Learning of Visual Representations[J]. Cornell University - arXiv,Cornell University - arXiv, 2020.

[6] GUTMANN MichaelU, HYVÄRINEN A. Noise-contrastive estimation: A new estimation principle for unnormalized statistical models[J]. International Conference on Artificial Intelligence and Statistics,International Conference on Artificial Intelligence and Statistics, 2010.