⌈ 传知代码 ⌋ 辅助任务改进社交帖子多模态分类

💛前情提要💛

本文是传知代码平台中的相关前沿知识与技术的分享~

接下来我们即将进入一个全新的空间,对技术有一个全新的视角~

本文所涉及所有资源均在传知代码平台可获取

以下的内容一定会让你对AI 赋能时代有一个颠覆性的认识哦!!!

以下内容干货满满,跟上步伐吧~


📌导航小助手📌

  • 💡本章重点
  • 🍞一. 概述
  • 🍞二. 主要贡献
  • 🍞三. 技术细节
  • 🍞四. 实验结果
  • 🫓总结


💡本章重点

  • 辅助任务改进社交帖子多模态分类

🍞一. 概述

  1. 这篇文章的主要内容是关于如何通过利用图像-文本辅助任务来提高社交媒体帖子的多模态分类效果。研究者们在多模态模型微调过程中联合使用了两种辅助损失:图像-文本对比(Image-Text Contrastive, ITC)和图像-文本匹配(Image-Text Matching, ITM)。ITC 旨在最小化帖子内部图像和文本表示之间的距离,从而有效地弥合图像在传达帖子意义中扮演重要角色时的鸿沟。ITM 则增强了模型理解图像和文本之间语义关系的能力,提高了处理模糊或关系不紧密模态的能力。

  2. 研究者们结合了五种多模态模型,并在五个不同的社交媒体数据集上进行了实验,展示了使用这两种辅助任务可以一致性地提高模型性能,最高可提升 2.6 的 F1 分数。文章还提供了详尽的分析,展示了在特定场景下每种辅助任务最有效。

  3. 此外,文章还介绍了实验设置、使用的数据集、单模态方法、多模态模型、评估方法和结果。研究者们使用了不同的预训练模型,包括 BERT、Bernice、ResNet152 和 ViT,并在不同的社交媒体任务上进行了实验,如文本-图像关系分类、情感分析、仇恨言论分类、讽刺检测和商业影响力内容检测等。

  4. 最后,文章讨论了研究的局限性,包括目前实验仅使用英文数据集,以及辅助任务的加入可能会增加训练时间。尽管如此,作者认为这些额外的时间与大型语言模型的预训练时间相比是相对较小的


🍞二. 主要贡献

文章的主要贡献可以总结为以下几点:

  1. 多模态模型微调的辅助任务研究: 文章提出了一个广泛的研究,比较了在微调过程中联合使用图像-文本对比(ITC)和图像-文本匹配(ITM)两种辅助损失的多模态模型。

  2. 性能提升: 展示了在五个不同的多模态社交媒体数据集上,使用ITC和ITM作为辅助损失的模型一致性地提高了性能,最高可提升2.6 F1分数。

  3. 具体场景分析: 提供了详尽的分析,揭示了在不同类型的图像-文本关系中,个别辅助任务及其组合的有效性。

  4. 模型和数据集的多样性: 研究涵盖了五种不同的多模态模型,并在五个不同的社交媒体数据集上进行了实验,这表明了方法的通用性和适应性。

  5. 对低资源场景的探讨: 文章还探讨了在不同数量的训练样本下模型的泛化能力和数据效率,这对于资源受限的情况特别重要。

  6. 对模型有效性的深入理解: 通过分析Ber-ViT-Att模型在TIR数据集上的预测,文章帮助理解在不同图像-文本关系类型下,辅助任务如何受益。

这些贡献为社交媒体帖子的多模态内容分类提供了新的视角和方法,有助于提高自动检测情感、讽刺和仇恨言论等下游任务的准确性。


🍞三. 技术细节

Image-Text Contrastive (ITC)

在这里插入图片描述

ITC就是使用对比学习的方法让图像和文本的特征对齐。

因为多模态数据集一个文本对应一个图片,那么通过对比学习的方式,让对应的这组文本和图像的相似度更大,也就是特征更加相似,从而完成特征的对齐。

因此损失函数由两部分构成:

  • 一个是为了让配对的文本-图像距离尽可能近而离另外的文本尽可能远。
  • 一个是为了让配对的文本-图像距离尽可能近而离另外的图像尽可能远。

Image-Text Matching (ITM)

在社交媒体帖子中,不相关或弱相关的文本-图像对很常见,仅仅用ITC,可能图像和文本表面上看上去确实没有关联,但是可能有着深层次的关联,使用这个任务可以帮助模型挖掘这深层次的关系。

这个辅助任务也很简单,就是50%的概率随机替换文本-图像对中的图像数据,如果被替换了,那么文本和图像就是不匹配的,如果没有替换,文本和图像就是匹配的,这时可以让模型去预测,文本和图像当前到底匹不匹配,从而转化成一个二分类问题。

其损失函数如下:

在这里插入图片描述
联合微调目标

分类任务+辅助训练任务,一起进行训练,损失函数如下:

在这里插入图片描述
其中CE就是cross-entropy classification loss,也就是模型最终分类预测结果的损失函数。


🍞四. 实验结果

在这里插入图片描述
其中:

  • +C就是加了ITC辅助任务

  • +M就是加了ITM辅助任务

可以看到,辅助任务确实可以优化模型的表现


🫓总结

综上,我们基本了解了“一项全新的技术啦” 🍭 ~~

恭喜你的内功又双叒叕得到了提高!!!

感谢你们的阅读😆

后续还会继续更新💓,欢迎持续关注📌哟~

💫如果有错误❌,欢迎指正呀💫

✨如果觉得收获满满,可以点点赞👍支持一下哟~✨

【传知科技 – 了解更多新知识】

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/685716.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

WPS表格插件方方格子【凑数】功能:选出和等于固定数字的数

文章目录 后来发现可以下载方方格子插件,使用【凑数】功能https://ffcell.lanzouj.com/iwhfc1kjhayh【凑数】快速【凑数】 导师让沾发票,需要选出若干个数额的发票,使它们的和等于一个指定数。不知道怎么办了,查了一下&#xff0c…

实验9 浮动静态路由配置

--名称-- 一、 原理描述二、 实验目的三、 实验内容四、 实验配置五、 实验步骤 一、 原理描述 浮动静态路由也是一种特殊的静态路由,主要考虑链路冗余。浮动静态路由通过配置一条比主路由优先级低的静态路由,用于保证在主路由失效的情况下,…

为什么我们需要在软件本地化过程中使用术语服务?

你知道软件翻译和本地化的术语服务吗?此解决方案涵盖源术语和目标术语的创建、开发和维护。所有术语都存储在具有多个字段的数据库中,包括术语定义、用法示例、上下文和历史记录。这使我们能够正确处理每个术语的创建或更改请求,避免创建重复…

orbslam2代码解读(1):数据预处理过程

写orbslam2代码解读文章的初衷 首先最近陆陆续续花了一两周时间学习视觉slam,因为之前主要是做激光slam,有一定基础所以学的也比较快,也是看完了视觉14讲的后端后直接看orbslam2的课,看的cvlife的课(课里大部分是代码…

SpringBoot+Vue校园管理系统(前后端分离)

技术栈 JavaSpringBootMavenMyBatisMySQLVueElement-UIShiro 系统角色 管理员用户院系管理员 系统功能截图

OrangePi KunPengPro | linux系统下挂载U盘

OrangePi KunPengPro | linux系统下挂载U盘 时间:2024年6月6日21:32:53 文章目录 OrangePi KunPengPro | linux系统下挂载U盘1.参考2.操作fdisk -l 列出系统上所有磁盘的分区表信息将 /dev/sda1 分区挂载到 /mnt/udisk/ 目录显示文件系统的磁盘空间使用情况卸载文件…

LeetCode-704. 二分查找【数组 二分查找】

LeetCode-704. 二分查找【数组 二分查找】 题目描述:解题思路一:注意开区间和闭区间背诵版:解题思路三: 题目描述: 给定一个 n 个元素有序的(升序)整型数组 nums 和一个目标值 target &#xf…

27 - 求关注者的数量(高频 SQL 50 题基础版)

27 - 求关注者的数量 selectuser_id,count(*) followers_count fromFollowers group byuser_id;

使用Vue.js将form表单传递到后端

一.form表单 <form submit.prevent"submitForm"></form> form表单像这样写出来&#xff0c;然后把需要用户填写的内容写在form表单内。 二.表单内数据绑定 <div class"input-container"><div style"margin-left: 9px;"&…

网络安全:https劫持

文章目录 参考https原理https窃听手段SSL/TLS降级原理难点缺点 SSL剥离原理发展缺点前端劫持 MITM攻击透明代理劫持 参考 https原理 SNI 浏览器校验SSL证书 https降级 https握手抓包解析 lets encrypt申请证书 https原理 步骤如下&#xff1a; 客户端向服务器发送https请求。…

搭贝请假审批应用

在现代企业管理中&#xff0c;高效的请假审批系统至关重要。搭贝的请假审批应用通过简化员工的请假流程、提升管理层的工作效率&#xff0c;确保企业运作的连贯性和透明度。本文将介绍搭贝请假审批应用的主要功能模块&#xff1a;请假分析看板、请假申请审批流、请假类型维护和…

【NOIP2020普及组复赛】题3:方格取数

题3&#xff1a;方格取数 【题目描述】 设有 nm 的方格图&#xff0c;每个方格中都有一个整数。现有一只小熊&#xff0c;想从图的左上角走到右下角&#xff0c;每一步只能向上、向下或向右走一格&#xff0c;并且不能重复经过已经走过的方格&#xff0c;也不能走出边界。小熊…

【区块链】truffle测试

配置区块链网络 启动Ganache软件 使用VScode打开项目的wordspace 配置对外访问的RPC接口为7545&#xff0c;配置项目的truffle-config.js实现与新建Workspace的连接。 创建项目 创建一个新的目录 mkdir MetaCoin cd MetaCoin下载metacoin盒子 truffle unbox metacoincontra…

《日均70亿请求项目实战》之部署三台zookeeper集群

个人名片 &#x1f393;作者简介&#xff1a;java领域优质创作者 &#x1f310;个人主页&#xff1a;码农阿豪 &#x1f4de;工作室&#xff1a;新空间代码工作室&#xff08;提供各种软件服务&#xff09; &#x1f48c;个人邮箱&#xff1a;[2435024119qq.com] &#x1f4f1…

搜索与图论:宽度优先搜索

搜索与图论&#xff1a;宽度优先搜索 题目描述参考代码 题目描述 输入样例 5 5 0 1 0 0 0 0 1 0 1 0 0 0 0 0 0 0 1 1 1 0 0 0 0 1 0输出样例 8参考代码 #include <iostream> #include <algorithm> #include <cstring> using namespace std;const int N …

【Python】教你彻底了解 Python中的文件处理

​​​​ 文章目录 一、文件的打开与关闭1. 打开文件2. 关闭文件3. 文件模式 二、文件的读写操作1. 读取文件内容2. 写入文件内容 三、使用上下文管理器四、异常处理五、二进制文件操作1. 读取二进制文件2. 写入二进制文件 六、实际应用示例1. 处理CSV文件2. 处理JSON文件 结论…

poweroff, reboot流程

poweroff /halt /reboot操作通常由用户空间的systemd或其他初始化系统通过sys_reboot()系统调用触发 sys_reboot() 在内核中定义&#xff0c;通常位于kernel/reboot.c文件中。当传递特定的magic值如 LINUX_REBOOT_CMD_POWER_OFF时&#xff0c;内核会执行关机并尝试触发硬件层面…

HTTP-一

一、超文本传输 1. 文本传输 > 字符串(能在utf8/gbk等码表上找到合法字符) 2. 超文本传输 > 不仅仅是字符串,还可以携带一些图片,特殊得格式 HTML 3. 富文本 word http0.9 -> http1.0 -> http1.1 -> http2.0 -> http3.0 http1.0是主流版本 2.0 和…

TiDB学习8:TiDB6.0新特性

目录 1. Placement Rules in SQL 2. 热点小表缓存 3. 内存悲观锁 4. Top SQL 5.TiDB Enterprise Manager(TiEM) 6. 小结 1. Placement Rules in SQL Placement Rules in SQL 之前 跨地域部署的集群&#xff0c;无法本地访问无法根据业务隔离资源难以按照业务等级配置资源…

联合(union)和枚举(enum)学习(c语言)

前言 Hello,亲爱的小伙伴们&#xff0c;好久不见&#xff0c;今天我们继续来学习新的内容-----联合和枚举 如果喜欢作者菌的文章的话&#xff0c;就不要吝啬手中的三连呀&#xff0c;万分感谢&#xff01;&#xff01; 联合&#xff08;共用体&#xff09;&#xff08;union&…