Sarcasm detection论文解析 |基于混合自动编码器的模型对社交媒体平台进行讽刺检

论文地址

论文地址:Electronics | Free Full-Text | Sarcasm Detection over Social Media Platforms Using Hybrid Auto-Encoder-Based Model (mdpi.com)

论文首页

 

笔记框架

 

 

基于混合自动编码器的模型对社交媒体平台进行讽刺检


📅出版年份:2022
📖出版期刊:Electronics
📈影响因子:2.9
🧑文章作者:Sharma Dilip Kumar,Singh Bhuvanesh,Agarwal Saurabh,Kim Hyunsung,Sharma Raj
📍 期刊分区:
JCR分区: Q2 中科院分区升级版: 工程技术3区 中科院分区基础版: 工程技术4区 影响因子: 2.9 5年影响因子: 2.9 EI: 是 南农高质量: B


🔎摘要:

讽刺是一种语言短语,表达与所说内容截然相反的意思,一般是指冒犯或嘲讽某人的非常令人不快的话语。讽刺每天都在社交媒体平台上被广泛使用。由于讽刺可能会改变语句的含义,因此意见分析程序很容易出错。随着社交媒体自动分析工具使用范围的扩大,人们对分析结果完整性的担忧也在增加。根据初步研究,仅讽刺性语句就大大降低了自动情感分析的准确性。讽刺性短语还会影响假新闻的自动检测,导致误报。早先已经提出了各种单独的自然语言处理技术,但每种技术都有文本上下文和邻近性的限制。它们无法处理不同的内容类型。在本研究论文中,我们使用自动编码器提出了一种基于句子嵌入的新型混合技术。该框架建议使用来自长短期记忆自动编码器、双向编码器表示变换器和通用句子编码器的句子嵌入。此外,还考虑了图像上的文本,以处理图像和视频等多媒体内容。在对各种混合融合模型进行消融研究后,设计出了最终框架。我们在三个不同的真实社交媒体数据集--自注释 Reddit 语料库(SARC)、头条新闻数据集和 Twitter 数据集上验证了所提出的模型。准确率分别为 83.92%、90.8% 和 92.80%。准确率指标值优于之前的先进框架。


🌐研究目的:

📰研究背景:

但每种技术都有文本上下文和邻近性的限制。它们无法处理不同的内容类型。

🔬研究方法:


🔩模型架构:

本文提出了一种混合模型,该模型从三个基于句子的模型中收集学习/识别。

文本预处理

LSTM的自动编码器

自动编码器是一种神经网络,其中输入层和输出层具有相同的值,它的基本形式包括编码器单元埋层和解码器单元。

编码器:

编码器学习理解输入并将其压缩为瓶颈层定义的内部表示。

解码器:

解码器使用编码器的输出(瓶颈层)再现输入。

通用句子编码器(USE)

使用通用句子编码器将文本编码为高维向量。

输入是一个512维的向量,输出是一个可变长度的英文文本。

在深度平均网络中,首先,对短语中所有单词和二元组的嵌入进行平均。然后,数据被发送到 4 层前馈深度 DNN,以生成 512 维短语嵌入作为输出。在训练过程中,学习单词和二元组的嵌入。

Transformer 的双向编码器BERT

BERT只需一个额外的输出层即可对预训练的 BERT 模型进行微调。

在基于 BERT 的架构中,12 层编码器堆叠在一起。

它创建了 768 维嵌入。在学习方面,它包含两个主要组成部分:“掩码语言建模”(MLM)和“下一句预测”(NPS)。

这三个都是一个句子编码器/嵌入生成器。

密集层

上述三种技术的分类输出被传递到密集层,该密集层学习串联句子嵌入以获得分类概率。

融合句子嵌入是在密集层上学习的。

softmax层

这些向量被连接并传递给 Softmax,以将输入最终分类为讽刺或非讽刺。

对于图像,使用光学字符读取器 (OCR) API pytesseract 从图像中提取文本。

BERT 以双向方式工作,而 USE 和 LSTM-Autoencoder 以单向方式工作。


🧪实验:

📇 数据集:

我们对三个公开的社交网络数据集elf-Annotated Reddit Corpus(SARC)[18] Twitter数据集[ 21 ]和headlines数据集[25]。

数据集80%用于训练,20%用于测试。

Twitter数据集

1956 条推文:895 条推文被作者认为是讽刺的,1061 条被认为是非讽刺的 [21]。

SARC数据集

SARC 2.0 是一个自注释的 Reddit 语料库数据集,包含来自 Reddit 论坛的评论。

共有 26,709 个头条新闻; 11,725 个是讽刺的,14,984 个是非讽刺的 [25]。

Headline数据集

该新闻头条数据集是从两个新闻网站收集的:Onion 和 Huffpost。洋葱有时事的讽刺版本,而《赫芬顿邮报》则有真实的新闻头条。

📏评估指标:

我们计算了准确度、精确度、召回率、F1score、AUC 和马修斯相关系数 (MCC) 值来评估我们模型的性能。图 9 说明了混淆矩阵。

📉 优化器&超参数:

💻 实验设备:

模型是在谷歌TensorFlow平台上使用Keras库构建的。

系统内存为32 GB,GPU为Nvidia Quadro RTX 4000 8GB GDDR6。

📊 消融实验:

所有不同的组合都针对所有数据集进行了验证。所有模型组合中的激活函数、优化器、损失函数和学习率等通用参数都相似。

📋 实验结果:

我们观察到,仅使用自动编码器效果不佳,并且会导致准确性降低。使用 BERT 或 USE 和自动编码器可以改善结果,但所有三种吞吐量的组合都是最佳性能指标。


🚩研究结论:

本研究提供了一种基于句子嵌入和自动编码器技术的混合讽刺检测模型。该模型采用 LSTM 自动编码器、USE 和基于 BERT 的句子嵌入架构。通过密集层学习每种技术的嵌入,并预测分类概率。这些预测概率被传递给 SoftMax 进行最终分类。

该模型在基于公开数据集 SARC、hea dlines 和 Twitter 的真实世界社会化媒体平台上进行了评估。在 SARC、头条新闻和 Twitter 数据集上的准确率分别为 83.92 % 90.8 %和 92.8 %。

较高的准确率归功于使用了多种句子嵌入技术,覆盖了不同的数据集类型,并对自动编码器进行了微调,平衡了每种技术各自的局限性。

此外,在头条数据集的基础上还必须进行改进。可以利用基因算法等进化技术进行进一步研究。


📝总结

💡创新点:

我们使用自动编码器提出了一种基于句子嵌入的新型混合技术。

创建可靠且有效的基于混合自动编码器的模型来检测社交网站上的讽刺。该模型采用基于 LSTM 的自动编码器从结果中进一步学习。

利用自动编码器将基于句子的嵌入和无监督学习的混合模型结合起来,以克服它们的局限性。

⚠局限性:

社交媒体平台的另一个问题是,由于篇幅限制,人们经常在评论中使用俚语或缩写。理解这些缩写很困难。此外,理解这个俚语和缩写的上下文是另一个挑战。

此外,在头条数据集的基础上还必须进行改进。

🔧改进方法:

可以利用基因算法等进化技术进行进一步研究。

🖍️知识补充:

采用多分支 BERT 及其独立参数不会有太大帮助。在句子稍长、前后句子有一定关联的情况下,BERT 是一种很好的技术。在推文数据中,由于推文很短,而且很多时候推文之间并不存在相关性,因此仅使用 BERT 不会有明显改善。

Tesseract 是用于 OCR 的谷歌 API。 tesseract API在python中的实现是pytesseract。

自动编码器是一种神经网络,其中输入层和输出层具有相同的值。

通用句子编码器有多种变体——变压器编码器和深度平均网络。在此变型中,变压器编码器采用原始变压器结构的编码器组件。该架构由六个堆叠变压器层组成。每层都包含一个自注意力模块,后面是一个前馈网络。自注意力过程在构建每个单词表示时会考虑单词顺序和周围上下文。为了考虑句子长度的变化,输出的上下文感知词嵌入逐个元素相加,并除以句子长度的平方根。作为输出句子嵌入,我们收到一个 512 维向量。

因此,BERT只需一个额外的输出层即可对预训练的 BERT 模型进行微调,从而为各种 NLP 任务创建最先进的模型。

BERT-base 是基于 25 亿词维基百科语料库的预训练模型。

MCC是用于评估二元分类模型的统计相关值。其职责是评估或量化预计值与实际值之间的差异。 MCC 考虑混淆矩阵中的所有四个值。

俚语和缩写词的使用可能会对注意力系统造成严重破坏。


💬讨论:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/610824.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

5.08.7 CMT: Convolutional Neural Networks Meet Vision Transformers

1. 介绍 将基于 Transformer 的架构应用于视觉领域,并在图像分类、目标检测和语义分割等各种任务中取得了有希望的结果。 Vision Transformer (ViT)是第一个用纯 Transformer 替代传统 CNN 主干的工作。输入图像(2242243)首先被分割成196个不…

系统架构设计师 - 计算机组成与体系结构(1)

计算机组成与体系结构 计算机组成与体系结构计算机结构 ★CPU 组成结构运算器组成控制器组成 计算机体系结构冯诺依曼结构哈弗结构 嵌入式芯片(了解) 存储系统 ★★★★概述Cache主存编址磁盘管理磁盘基本结构与存取过程磁盘优化分布存储磁盘管理 大家好…

绝地求生:杜卡迪联动下架,兰博基尼联动预计在下半年上线!

杜卡迪联名活动即将在5月8日上午八点下架,届时商城内购买-升阶活动将不可用。 杜卡迪下架 本次杜卡迪联名是蓝洞首次以非通行证方式进行的载具联名活动,玩家认为有利有弊。 多数玩家表示非通行证-仅抽奖获取的方式成本太高,部分脸黑玩家本次…

c++ poencv Project2 - Document Scanner

惯例先上结果图: 本文提供一种文本提取思路: 1、首先图像预处理:灰度转换、高斯模糊、边缘提取,膨胀。 Mat preProcessing(Mat img) {cvtColor(img, imgGray, COLOR_BGR2GRAY);GaussianBlur(imgGray, imgBlur, Size(3, 3), 3, …

基于鸢尾花数据集的四种聚类算法(kmeans,层次聚类,DBSCAN,FCM)和学习向量量化对比

基于鸢尾花数据集的四种聚类算法(kmeans,层次聚类,DBSCAN,FCM)和学习向量量化对比 注:下面的代码可能需要做一点参数调整,才得到所有我的运行结果。 kmeans算法: import matplotlib.pyplot a…

从面试官视角出发,聊聊产品经理的面试攻略

一、请进行自我介绍 这题基本是面试的开胃菜了,估计面试多的,自己答案都能倒背如流啦。 其实自我介绍还是蛮重要的,对我来说主要有 3 个作用:面试准备、能力预估、思维评估。 面试准备:面试官每天都要面 3 ~6 人&am…

嵌入式C语言高级教程:实现基于STM32的智能水质监测系统

智能水质监测系统可以实时监控水体的质量,对于环境保护和水资源管理具有重要意义。本教程将指导您如何在STM32微控制器上实现一个基本的智能水质监测系统。 一、开发环境准备 硬件要求 微控制器:STM32F303K8,因其高精度模拟特性而被选用。…

嵌入式C语言高级教程:实现基于STM32的智能照明系统

智能照明系统不仅可以自动调节光源的亮度和色温,还可以通过感应用户的行为模式来优化能源消耗。本教程将指导您如何在STM32微控制器上实现一个基本的智能照明系统。 一、开发环境准备 硬件要求 微控制器:STM32F103RET6,具有足够的处理能力…

苹果再失资深设计师,Jony Ive 团队基本离开;OpenAI 或于下周发布 AI 搜索丨 RTE 开发者日报 Vol.201

开发者朋友们大家好: 这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文…

测试环境搭建整套大数据系统(十六:超级大文件处理遇到的问题)

一:yarn出现损坏的nodemanger 报错现象 日志:1/1 local-dirs usable space is below configured utilization percentage/no more usable space [ /opt/hadoop-3.2.4/data/nm-local-dir : used space above threshold of 90.0% ] ; 1/1 log-dirs usabl…

【SRC实战】合成类小游戏外挂漏洞

挖个洞先 https://mp.weixin.qq.com/s/ZnaRn222xJU0MQxWoRaiJg “以下漏洞均为实验靶场,如有雷同,纯属巧合” 合成类小游戏三个特点: 1、一关比一关难,可以参考“羊了个羊” 2、无限关卡无限奖励,可以参考“消灭星星…

【Qt 学习笔记】Qt常用控件 | 多元素控件 | List Widget的说明及介绍

博客主页:Duck Bro 博客主页系列专栏:Qt 专栏关注博主,后期持续更新系列文章如果有错误感谢请大家批评指出,及时修改感谢大家点赞👍收藏⭐评论✍ Qt常用控件 | 多元素控件 | List Widget的说明及介绍 文章编号&#x…

【Java代码审计】代码审计的方法及常用工具

【Java代码审计】代码审计的方法及常用工具 代码审计的常用思路代码审计辅助工具代码编辑器测试工具反编译工具Java 代码静态扫描工具 代码审计的常用思路 1、接口排查(“正向追踪”):先找出从外部接口接收的参数,并跟踪其传递过…

ICode国际青少年编程竞赛- Python-3级训练场-综合练习3

ICode国际青少年编程竞赛- Python-3级训练场-综合练习3 1、 for i in range(10):if i < 2 or i > 7: Flyer[i].step(1) Dev.step(Dev.y - Item[0].y)2、 for i in range(8):if i < 3 or i > 4:Spaceship.turnRight()else:Spaceship.turnLeft()Spaceship.step(i …

VBA_NZ系列工具NZ06:VBA创建PDF文件说明

我的教程一共九套及VBA汉英手册一部&#xff0c;分为初级、中级、高级三大部分。是对VBA的系统讲解&#xff0c;从简单的入门&#xff0c;到数据库&#xff0c;到字典&#xff0c;到高级的网抓及类的应用。大家在学习的过程中可能会存在困惑&#xff0c;这么多知识点该如何组织…

InLine Chat功能优化对标Github Copilot,CodeGeeX带来更高效、更直观的编程体验!

VSCode中的CodeGeeX 插件上线InLine Chat功能后&#xff0c;收到不少用户的反馈&#xff0c;大家对行内交互编程这一功能非常感兴趣。近期我们针对这个功能再次进行了深度优化&#xff0c;今天详细介绍已经在VSCode插件v2.8.0版本上线的 CodeGeeX InLine Chat功能&#xff0c;以…

IPO压力应变桥信号处理系列隔离放大器 差分信号隔离转换0-10mV/0-20mV/0-±10mV/0-±20mV转4-20mA/0-5V/0-10V

概述&#xff1a; IPO压力应变桥信号处理系列隔离放大器是一种将差分输入信号隔离放大、转换成按比例输出的直流信号混合集成厚模电路。产品广泛应用在电力、远程监控、仪器仪表、医疗设备、工业自控等行业。该模块内部嵌入了一个高效微功率的电源&#xff0c;向输入端和输出端…

海外多语言盲盒系统开发:加快盲盒企业出海

近几年&#xff0c;全球都进入到了潮玩文化发展期&#xff0c;在这种时代背景下&#xff0c;盲盒迅速发展&#xff0c;与消费者建立了深厚的情感连接&#xff0c;市场规模逐渐扩大。目前&#xff0c;我国盲盒企业纷纷布局海外市场&#xff0c;纵观海外庞大的发展空间&#xff0…

MathType7.6最新免费汉化版安装包下载地址

MathType是一款由Design Science公司开发的数学公式编辑器&#xff0c;被广泛用于编辑论文、书籍、报刊、数学试卷、演示文件等&#xff0c;是编辑数学资料的得力工具。以下是对MathType软件的详细介绍&#xff1a; 安装免费版MathType和mathtype7.4产品密钥 MTWE691-011524-9…

基于docker安装flink

文章目录 环境准备Flinkdocker-compose方式二进制部署 KafkaMysql Flink 执行 SQL命令进入SQL客户端CLI执行SQL查询表格模式变更日志模式Tableau模式窗口计算 窗口计算滚动窗口demo滑动窗口 踩坑 环境准备 Flink docker-compose方式 version: "3" services:jobman…