-
任务描述: NER 是检测和分类文本中实体范围的任务。当实体范围在文本中彼此重叠时,这个问题被称为嵌套 NER。
-
解决方法: 使用基于跨度的方法来处理嵌套 NER,其中大多数方法将得到一个 n × n 的分数矩阵,其中 n 表示句子的长度,每个条目对应一个跨度。然而,先前的工作忽略了分数矩阵中的空间关系。
-
提出的方法: 本文提出使用卷积神经网络(CNN)来模拟分数矩阵中的空间关系。尽管方法简单,但在三个常用的嵌套 NER 数据集上的实验表明,该模型超过了几种最近提出的具有相同预训练编码器的方法。
-
实验结果: 进一步分析表明,使用 CNN 可以帮助模型发现更多的嵌套实体。
-
数据预处理: 研究发现,不同的论文对三个嵌套 NER 数据集使用不同的句子标记方法,这会影响比较。因此,作者发布了一个预处理脚本来促进未来的比较。
Code : https://github.com/yhcc/CNN_Nested_NER
-
相邻跨度的特殊相关性: 作者发现在嵌套 NER 任务中,相邻的跨度之间存在一些特殊的相关性。这意味着跨度之间的位置关系可能对实体识别有一定的影响。
-
使用 CNN 建模交互: 为了捕获相邻跨度之间的相关性,作者提出使用卷积神经网络来对它们之间的交互进行建模。尽管这个方法非常简单,但在三个常用的嵌套 NER 数据集中取得了显著的性能提升。
-
释放预处理脚本: 为了方便其他研究人员进行直接和公平的比较,作者发布了针对三个嵌套 NER 数据集的预处理脚本。这有助于确保在不同方法之间进行准确的比较。
-
将跨度特征矩阵视为图像: 作者指出,将跨度特征矩阵视为图像可以启示未来基于跨度的方法对嵌套 NER 任务的探索。这种视角可能有助于发现新的模型设计和特征工程方法。