论文地址
论文地址:A2Text-Net: A Novel Deep Neural Network for Sarcasm Detection | IEEE Conference Publication | IEEE Xplore
github:lliyuan1117/A2Text-Net (github.com)
论文首页
A2Text-Net:一种用于讽刺检测的新型深度神经网络
📅出版年份:2019
📖出版期刊:
📈影响因子:
🧑文章作者:Liu Liyuan,Priestley Jennifer Lewis,Zhou Yiyun,Ray Herman E.,Han Meng
🔎摘要:
讽刺是一种常见的反讽形式,使用者通常使用相反的词语来表达自己的负面态度。预测讽刺是研究人类社会互动的重要组成部分。改进讽刺语言的分类有可能改进人类情感的其他方面(如品牌偏好、政治观点)。在面对面交流中,声音的变化、眼神的交流、身体的姿势等都为听众提供了发现讽刺的线索。然而,由于缺乏这些以人为中心的微妙线索,仅通过文本检测讽刺尤其具有挑战性。在这项研究中,我们采用了一种新的深度神经网络: A2Text-Net 来模仿面对面的语音,它整合了标点符号、语篇(POS)、数字、表情符号等辅助变量,以提高分类性能。实验结果证明,与传统的机器学习和深度学习算法相比,我们的 A2Text-Net 方法提高了分类性能。
🌐研究目的:
改进的讽刺检测支持更好地解释客户情绪、政治评论和通过社交媒体平台进行的信息交流。
📰研究背景:
在社交媒体和其他基于文本的环境中,讽刺检测成为一项艰巨的任务。仅从文本中很难对讽刺信息进行分类;缺少提供重要背景的线索。
🔬研究方法:
🔩模型架构:
A2Text-Net 共有三层。
第一层名为“假设检验层”
-
旨在确定辅助变量是否适合添加到文本中。
-
“假设层”选择适当的辅助变量,添加到下一个“特征处理层”中。
第二层是“特征处理层”
-
主要目的是将非结构化数据转换为结构化数据,并将文本特征与辅助特征连接起来。
-
对于文本数据,词嵌入层可以训练每个词的参数,并将非结构化文本数据转换为结构化数据。
-
在词嵌入层之后接着一个扁平化层,因为它可以减少词嵌入层的维度以满足下一层的输入维度要求。
-
由于上下文向量和辅助变量具有不同的维度,因此不能同时充当神经网络的输入。
第三层“神经网络层”
-
双通道数据、词嵌入输出和虚拟辅助变量将作为输入连接到第三层。
-
应用反向传播深度神经网络。神经网络层的输入将是与文本的平坦层连接的词嵌入输出,以及我们第一层得到的辅助变量。
🧪实验:
📇 数据集:
-
新闻标题数据集:该数据集包含从“Onion”和“HuffPost”网站收集的 26,709 个新闻标题。
-
Tweets 数据集 A:原始数据集由 Riloff 等人收集。我们收集了 1,956 条推文,其中 308 条是讽刺记录,1,648 条不是讽刺记录。
-
推文数据集 B:数据集中有 54,931 条记录,其中 25,872 条被标记为讽刺推文,29,059 条被标记为非讽刺推文。
-
Reddit 数据集:该数据集包含 4,692 条 Reddit 评论。其中,2,346 条是讽刺记录,2,346 条不是讽刺记录。
数据预处理包括几个方面:单词标记化、所有文本小写、删除停用词和标点符号、雪词干法和词形还原
📏评估指标:
采用ROC AUC、召回率、精度和F1分数作为评价指标。
F1 分数是精确率和召回率的调和平均值。
5 折交叉验证来测试模型。
📉 优化器&超参数:
dropout率设置为0.2
两个隐藏层使用ReLu函数
输出层使用sigmoid函数对讽刺状态进行分类。
第一隐藏层有 64 个神经元,第二隐藏层有 32 个神经元。
与逻辑回归类似,“rmsprop”优化器用于寻找二元交叉熵目标函数的最优解。
💻 实验设备:
📊 消融实验:
📋 实验结果:
我们提出的 A2Text-Net 在三个数据集上具有最佳性能。
Tweets 数据集 A 是一个小型且不平衡的数据集,LSTM 在解决该数据集上的讽刺分类问题方面具有最佳性能。
显然,A2Text-Net 神经网络可以帮助 DNN 模型获得更好的分类结果。
🚩研究结论:
-
本文提出了一种新颖的深度神经网络来检测讽刺,即“A2Text-Net”。
-
实验结果表明,与其他基线模型相比,我们提出的方法可以获得出色的性能。
-
A2Text-Net 是一个合适的模型来检测讽刺,它允许我们添加更多相关的辅助特征,而不仅仅是使用文本特征。
-
我们的 A2Text-Net 中的第三层可以适应任何其他深度学习模型,如果它们具有比深度神经网络更好的性能。
📝总结
💡创新点:
-
采用了一种新的深度神经网络: A2Text-Net 来模仿面对面的语音,它整合了标点符号、语篇(POS)、数字、表情符号等辅助变量,以提高分类性能。
-
A2Text-Net框架使用辅助特征来改进模型选择,它将多个辅助数据与词嵌入的输出相结合。
-
提出了两个辅助变量:标点符号和词性。可以使用统计假设检验来选择辅助变量,以改进讽刺的检测。
-
训练了词嵌入模型,而不是使用预先训练的模型
⚠局限性:
🔧改进方法:
🖍️知识补充:
-
词嵌入的主要目的是使用密集向量表示来表示单词和文档。
-
在词嵌入层之后接着一个扁平化层,因为它可以减少词嵌入层的维度以满足下一层的输入维度要求。
💬讨论: