ToxVidLLM:一个用于检测有害视频的多模态多任务框架

      在一个社交媒体平台赋予用户成为内容创作者力量的时代,数字领域见证了前所未有的信息传播激增到2023年,82%的互联网流量是视频内容。因此,像抖音和YouTub这样的平台已经成为主要的信息来源。一个显著的统计数据凸显了这些平台的巨大影响:仅在YouTube上,用户每天就共同观看超过十亿小时的视频内容。视频内容的病毒性质是一把双刃剑:它促进了新闻的快速传播,同时也加速了有害言论的传播。

     我们推荐一个先进的多模态多任务框架,用于视频内容中的毒性检测,利用大型语言模型(LLMs),并结合了进行情感和严重性分析的附加任务。ToxVidLLM结合了三个关键模块——编码器模块、跨模态同步模块和多任务模块——构建了一个为复杂视频分类任务定制的通用多模态LLM。

1 有害代码混合多模态(ToxCMM)数据集

    选择YouTube作为主要数据源重点是代码混合语言对话,主要是印地语和英语。为了收集相关内容,我们使用YouTube API抓取印度网络系列和印地语"烤"视频将下载的视频细分为更小的子视频,以便在句子级别进行注释,并最大化包含有害内容。数据集包含931个视频,采用印地语-英语代码混合格式。

    使用了配置有OpenAI库中单词时间戳的Whisper转录模型为每个视频生成文字转录。然后我们通过手动删除由于语音中断或结巴导致不清楚的单词和符号来提高文字转录的质量。从视频中提取单个话语涉及记录它们的开始和结束时间。

1.1 数据注释

     为了更好地阐明注释过程,我们将注释部分分为两个子部分:(i) 注释培训和(ii) 主要注释。注释培训:三位博士学者监督注释过程,他们精通有害和冒犯内容,实际注释由三位精通印地语和英语的本科生进行。

     数据集考虑了两个毒性类别(非毒性/毒性)、三个情感类别(积极/中立/消极)以及每个视频样本的严重性得分在三点量表上(0、1、2)。得分0表示没有毒性迹象,1表示帖子包含毒性迹象,但并不严重,2分表示帖子包含强有力的毒性证据(例如,身体威胁或兴奋自杀)。

1.2 数据集统计

数据集总共包含4021个话语,其中1697个被归类为有害,其余2324个被标记为非有害。ToxCMM数据集的类别统计数据如表1所示。该数据集中的每个话语平均包含8.68个单词,平均持续时间为8.89秒。平均而言,数据集中的每个话语包含约68.20%的印地语单词,这意味着超过三分之二的单词是印地语,其余的单词是英语。

2 方法论

       给定一个表示为V的话语视频片段,我们的任务基本上是一个分类问题目标是确定视频是否包含有害内容,以及为其分配情感和严重性标签。每个视频V表示为一系列帧F = {f1, f2, ... fn},附带相关的音频A,以及视频的文字转录T = {w1, w2, ... wm},由一系列单词组成构建一个基于深度学习的视频分类器,表示为C:C(T; F; A) → y,其中y表示给定任务的视频的实际标签。我们将基于LLM的多模态多任务框架ToxVidLLM划分为三个不同的组件:即编码器模块、跨模态同步模块和多任务模块。

2.1 编码器模块

2.1.1 文本编码器

模型选择: 在 HingBERT 模型系列中进行实验,包括 HingMBERT、HingRoBERTa、HingGPT 和 IndicBERT。HingBERT 系列模型专门针对印地语和英语混合语(Hinglish)进行预训练,能够有效地处理混合语言文本。

作用: 将视频字幕中的文本转换为嵌入表示,捕捉文本内容的语义信息。

2.1.2 音频编码器

模型选择: 使用两个最先进的(SOTA)模型,即Whisper和MMS

  • Whisper: 由 OpenAI 开发,是一个多语言语音识别模型,在大型音频数据集上进行训练,能够有效地识别和理解语音内容。
  • MMS (Massively Multilingual Speech): 由 Facebook AI 开发,是一个用于语音识别的预训练模型,能够在多种语言上进行训练和使用。

作用: 将视频中的音频信号转换为嵌入表示,捕捉语音内容的信息,例如说话人的语气、语调等。

2.1.3 视频编码器

模型选择: 使用了两个基于 Transformer 的视频模型:VideoMAE 和 Timesformer。

  • VideoMAE: 使用掩码自编码器进行自监督视频预训练,能够有效地捕捉视频中的时空信息。
  • Timesformer: 将 Transformer 架构扩展到视频理解任务,能够有效地捕捉视频中的时间关系。

作用: 将视频帧转换为嵌入表示,捕捉视频内容的信息,例如场景、动作、表情等。

2.2 跨模态同步模块

跨模态同步模块是 ToxVidLLM 模型中至关重要的一环,它负责将来自不同模态(视频、音频、文本)的特征进行对齐,以便更好地融合信息并提升毒性检测的性能。

2.2.1 编码阶段

首先,使用预训练模型分别对视频和音频进行编码,提取其特征表示:

  • 视频编码: 使用 VideoMAE 或 Timesformer 等模型,捕捉视频中的空间和时间信息。
  • 音频编码: 使用 Whisper 或 MMS 等模型,提取音频信号中的语义信息。

经过编码后,视频和音频的特征表示分别记为 Zv 和 Za。

2.2.2 抽象特征提取

为了降低计算成本并限制前缀中的 token 数量,使用 1 维卷积层 (Conv) 对 Zv 和 Za 进行压缩,使其长度缩短到固定的值 SL’。

接着,使用全连接层 (FC) 调整特征维度,使其与 LLM 的 token 嵌入矩阵维度 dt 相匹配。

经过抽象特征提取后,视频和音频的特征表示分别记为 Cv 和 Ca。

2.2.3 多头交叉注意力 (MHCA)

为了将视频和音频的特征表示与文本特征表示对齐,使用 MHCA 机制。

MHCA 机制将 Cv 和 Ca 作为 Query (Q),将文本特征表示 Et 作为 Key (K) 和 Value (V)。

通过比较 Q 和 K,计算注意力权重,并使用加权求和的方式更新 Q,从而将视频和音频的特征表示映射到文本嵌入空间。

经过 MHCA 处理后,视频和音频的特征表示分别记为 Csv 和 Csa。

2.2.4 门控融合

为了更好地融合视频和音频的特征,使用门控融合策略。

门控融合通过学习权重矩阵 Pv 和 Pa,以及标量偏置 bg,将 Csa 和 Csv 进行线性组合。

2.3 多任务模块

任务模块是 ToxVidLLM 模型中的核心部分,它负责同时进行毒性检测、严重程度分析和情感分析三个任务

2.3.1 输入

多任务模块的输入包括来自跨模态同步模块的融合特征表示 Jva,以及文本特征表示 Et。

为了更好地融合文本和融合特征,将 Jva 和 Et 通过特殊 token [SEP] 进行连接,形成一个多模态输入序列。

2.3.2 LLM 处理

使用预训练的 LLM 模型(如 HingRoberta 或 HingGPT)对多模态输入序列进行处理。

LLM 模型会生成一个序列输出,每个 token 对应一个向量表示。

2.3.3 任务特定层

将 LLM 的序列输出进行平均池化,得到一个全局特征表示。

将全局特征表示分别输入到三个任务特定的全连接层,每个层对应一个任务(毒性检测、严重程度分析、情感分析)。

每个任务特定层会输出一个向量表示,该向量包含了该任务所需的信息。

2.3.4 输出层

将三个任务特定层的输出分别输入到输出层,进行 softmax 操作,得到三个任务的预测概率分布。

最终,根据预测概率分布,可以得到每个视频的毒性标签、严重程度标签和情感标签。

2.4 加权交叉熵损失函数

ToxVidLLM 模型进行了多任务学习,同时进行毒性检测、严重程度分析和情感分析三个任务。为了平衡不同任务之间的权重,使用了加权交叉熵损失函数:Loss_f = ∑(β_k * Loss_k)

  • Loss_f 表示最终的损失值。
  • Loss_k 表示第 k 个任务的交叉熵损失值。
  • β_k 表示第 k 个任务的权重,由模型在训练过程中学习得到。用于控制不同任务对最终损失的贡献程度。例如,如果毒性检测任务比其他任务更重要,可以将 β_k 设置得更高,从而使模型在训练过程中更加关注毒性检测任务的预测精度。

3 结论

3.1 模态编码器选择

在音频编码器方面Whisper 模型在所有实验设置中均优于 MMS 模型,证明了其在处理音频数据方面的优越性能。

在视频编码器方面,VideoMAE 模型在所有实验设置中均优于 TimeSformer 模型,证明了其在提取视频特征方面的有效性。

在文本编码器方面,HingRoBERTa 模型在所有实验设置中均优于其他模型,证明了其在处理 Hindi-English 混合代码文本方面的优势。

3.2 单模态、双模态和三模态的比较

  • 单模态实验表明,文本模态在毒性检测任务中始终优于视频和音频模态,突出了文本信息在视频毒性检测中的重要性。
  • 双模态实验表明,文本+音频配置始终优于其他两种组合,证明了音频信息对毒性检测任务的补充作用。
  • 三模态实验表明,三模态配置在所有任务中都取得了最佳性能,证明了文本、音频和视频信息在视频毒性检测中的互补作用。

3.3 ToxVidLLM 模型的优势

  • ToxVidLLM 模型在所有实验中都显著优于基线模型,证明了其有效性。
  • ToxVidLLM 模型的多任务学习机制能够有效提升毒性检测任务的性能。
  • ToxVidLLM 模型的 MHCA 和门控融合机制能够有效地融合不同模态的特征,从而提升模型的性能。

4 相关知识

4.1 MHCA 进行跨模态同步

ToxVidLLM 模型选择使用 MHCA 进行跨模态同步,而不是其他方法,主要基于以下几个原因:

4.1.1 文本信息的重要性

在视频内容中,文本信息往往比音频和视频信息更能直接反映说话者的意图和情绪。

MHCA 可以有效地将文本信息作为引导,帮助模型理解和融合其他模态的信息。

4.1.2 统一表示空间

MHCA 可以通过计算不同模态之间的注意力权重,将它们映射到一个统一的表示空间中。

这有助于模型在不同模态之间建立关联,并更准确地识别毒性内容。

4.1.3 优于其他方法

与简单的拼接方法相比,MHCA 可以避免模态信息之间的冲突,并赋予不同模态不同的权重。

与其他注意力机制相比,MHCA 可以更有效地捕获不同模态之间的长期依赖关系。

4.1.4 实验验证

在 ToxVidLLM 的消融研究中,移除 MHCA 模块会导致模型性能显著下降,这进一步证明了 MHCA 在跨模态同步中的重要性。

4.2 ToxVidLLM 模型码和数据集下载 

GitHub - justaguyalways/ToxVidLM_ACL_2024: Code and Datasets for our accepted long paper at ACL 2024, regarding toxicity detection in code-mixed hinglish video content

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/679836.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

38【Aseprite 作图】包子——拆解

1 包子轮廓 2 画包子中间的褶皱,褶皱颜色更深一点,不要直接斜着,而是要连着

3. redis常见部署架构

redis常见部署架构 一、redis常见部署架构1、常见部署架构2、多实例部署2.1 规划安装目录、配置文件2.2.2 编辑实例配置文件2.2.3 启动实例2.2.4 测试数据读写 3、redis主从复制3.1 规划3.2 从服务器配置3.3 验证主从状态3.4 主从角色切换 4、分片集群4.1 原理4.2 分片集群的部…

基于单片机的船舱温度临界报警系统

摘 要 : 针对传统的船舱温度临界报警系统,由于温度监控不到位导致报警不及时的问题,提出一个基于单片机的船舱温度临界报警系统设计。该设计将单片机作为核心控制硬件,控制系统整体电路。同时设计数据采集模块,利用温度测量仪测试…

【vue3|第6期】如何正确地更新和替换响应式对象reactive

日期:2024年6月5日 作者:Commas 签名:(ง •_•)ง 积跬步以致千里,积小流以成江海…… 注释:如果您觉得有所帮助,帮忙点个赞,也可以关注我,我们一起成长;如果有不对的地方&#xff…

Leetcode 第 399 场周赛题解

Leetcode 第 399 场周赛题解 Leetcode 第 399 场周赛题解题目1:3162. 优质数对的总数 I思路代码复杂度分析 题目2:3163. 压缩字符串 III思路代码复杂度分析 题目3:3164. 优质数对的总数 II思路代码复杂度分析 题目4:3165. 不包含相…

C51单片机 串口打印printf重定向

uart.c文件 #include "uart.h"void UartInit(void) //4800bps11.0592MHz {PCON | 0x80; //使能波特率倍速位SMODSCON 0x50; //8位数据,可变波特率。使能接收TMOD & 0x0F; //清除定时器1模式位TMOD | 0x20; //设定定时器1为8位自动重装方式TL1 0xF4; //设…

IPFS节点部署及连接java服务接口

文章目录 引言前言:IPFS网络部署1.下载安装文件2.安装及初始化3.测试上传文件 引入IPFS 依赖包初始化IPFS创建接口类以及实现类创建前端访问的控制类前端设计及验证 引言 该篇文章是记录使用IPFS存储文件与java的Springboot项目连接的过程,前端简单地用…

基于websocket与node搭建简易聊天室

一、前言 上一篇文章介绍了websocket的详细用法与工具类的封装,本篇就基于websocket搭建一个简易实时的聊天室。 在本篇开始之前也可以去回顾一下websocket详细用法:WebSocket详解与封装工具类 二、基于node搭建后台websocket服务 首先确认本机电脑中…

YOLOv8改进 | Conv篇 | 利用YOLOv10提出的C2fUIB魔改YOLOv8(附代码 + 完整修改教程)

一、本文介绍 本文给大家带来的改进机制是利用YOLOv10提出的C2fUIB模块助力YOLOv8进行有效涨点,其中C2fUIB模块所用到的CIB模块是一种紧凑的倒置块结构,它采用廉价的深度卷积进行空间混合,并采用成本效益高的点卷积进行通道混合。本文针对该…

Window10磁盘的分盘和合并

注意: 当我们c盘不够大需要扩大磁盘空间时,当c盘后面没有未划分的磁盘时候,我们是无法进行扩充c盘的,此时,我们可以先删除后面一个磁盘,再进行扩大。 如下:c盘后没有未分配的空间,…

Flink端到端的精确一次(Exactly-Once)

目录 状态一致性 端到端的状态一致性 端到端精确一次(End-To-End Exactly-Once) Flink内部的Exactly-Once 输入端保证 输出端保证 幂等写入 事务写入 Flink和Kafka连接时的精确一次保证 整体介绍 需要的配置 案例 状态一致性 流式计算本身就…

UI 自动化分布式测试 -Docker Selenium Grid

分布式测试Selenium Grid 对于大型项目或者有大量测试用例的项目,单机的测试环境往往无法快速完成所有测试用例的执行,此时自动化测试执行效率将会成为最大的瓶颈,Selenium Grid 可以通过多机的分布式架构允许测试用例并行运行,大大缩短了测试时间。 Selenium Grid 提供了多…

命令模式(行为型)

目录 一、前言 二、命令模式 三、总结 一、前言 命令模式(Command Pattern)是一种行为型设计模式,命令模式将一个请求封装为一个对象,从而可以用不同的请求对客户进行参数化;对请求排队或记录请求日志,以…

此表单不安全,因此系统已关闭自动填充功能

问题截图: 截图就不放了,公司的系统不方便,就是form表单会有个提示“此表单不安全,因此系统已关闭自动填充功能” 解决思路: 1、问题原因 使用https访问,但表单提交地址是http的 2、查看表单配置 表单…

行业分析---造车新势力之理想汽车

1 前言 在之前的博客中,笔者撰写了多篇行业类分析的文章(科技新能源): 《行业分析---我眼中的Apple Inc.》 《行业分析---马斯克的Tesla》 《行业分析---造车新势力之蔚来汽车》 《行业分析---造车新势力之小鹏汽车》 此类文章的受…

IIC信号质量测试、时序测试详解

IIC 时序图 信号质量测试 1、vIL: 低输入电平。 2、vIH: 高输入电平。 3、vhys: 施密特触发器输入的滞后。 4、vOL1: VDD>2V时&#xff0c;低电平输出电压&#xff08;漏极开路或集电极开路&#xff09;。 5、vOL3: VDD<2V时&#xff0c;低电平输出电压&#xff08;漏极开…

js 数字精确度

事情的起源&#xff1a; 项目中 填写的赔付金额是小数 传给后端需要 *100 9.87 *100 传给后端后是986.9999999999999 后端直接取整 就变成了9.86了 0.1 0.2 ! 0.3 console.log(0.1 0.2) //0.30000000000000004 console.log(0.1 0.2 0.3) //false1. 数字的存储 浮点数是用…

【因果推断python】14_控制混淆因素3

目录 不良控制 - 选择偏差 糟糕的 COP 关键思想 不良控制 - 选择偏差 让我们回到债务催收电子邮件的案例。 请记住&#xff0c;电子邮件是随机分配给客户的。 我们已经解释了什么是 信用额度 和 风险分 。 现在&#xff0c;让我们看看剩下的变量。 打开 是客户是否打开电子邮…

工厂模式——工厂方法模式+注册表

工厂方法模式的瑕疵 在前一篇笔记中我们介绍了工厂方法模式&#xff0c;示例的类图如下&#xff1a; 考虑一种情况&#xff1a;现在要在程序运行时&#xff0c;根据外部资源&#xff0c;动态的实例化对象。也就是说在编译期我们无法知道要实例化的对象的类型。因此在实例化的过…

el-input实现后缀图标和clearable的兼容,调整el-input clearable与自定义图标展示位置问题

背景&#xff1a;常见的输入框存在两个图标的展示效果都是清空在前搜索或其他图标在后 常见以及最终实现效果&#xff08;清空图标在前&#xff0c;搜索图标在后&#xff09; BUG以及el-input默认效果 问题排查 通过控制台审查元素能够发现&#xff0c;默认的效果是自定义图标…