浅谈音频鉴黄技术

随着互联网的迅猛发展和网络智能化的普及,音视频内容已成为互联网传播的主流形式,各大视频网站、直播平台及短视频应用不断涌现,为亿万用户提供了丰富多样的娱乐和资讯内容。然而,这种繁荣背后也隐藏着不容忽视的问题:不良音频信息的传播日益猖獗,给社会风气、青少年健康成长以及国家安全带来了严重威胁。

传统的音频不良信息检测主要依赖于人工审核,这种方式不仅效率低下,而且容易受到人为因素的影响,导致误判或漏判的情况频发。随着音视频内容数量的激增,单纯依靠人力进行监管已无法满足实际需求。为此,一些企业尝试通过分类或关键字检测等传统算法来开发服务接口,如百度、网易云等服务接口,又如格雷盒子、净网大师等软件,但这些技术仅针对含有不良文字和图片内容的信息进行拦截。作为视频信息的重要一部分,音频的不良信息检测可以起到重要的补充作用,而目前这方面的工作仍需要依靠人工进行审核,在造成人力浪费的同时也存在误判漏判的情况[1]。

 技术应用

为此腾讯云安全天御团队成功研发了基于音频的鉴黄系统,并已广泛应用于腾讯云的点播、直播等业务中,显著提高了色情内容的识别与过滤效率。该系统每日能够处理超过亿条的音视频内容,准确识别数十万条色情音视频,准确率高达95%以上。在面对音频内容和场景多样性、信噪比低、音频时长短以及语音质量参差不齐等问题,腾讯云采用了i-vector系统来确保较长音频的准确快速识别,同时利用DNN embedding系统对短音频进行特定检测,两者相互补充,结合多种信道补偿算法,确保了系统的高效性和实时性。此外,为了确保训练模型的准确性,腾讯云在样本标注方面进行了精细化处理,对色情音频进行了多标签区分,如色情尖叫声、喘息声等,以提升模型的识别能力。[2]    

声网也提供了一站式智能语音识别方案,开发者只需要在应用中集成声网 Agora SDK,即可让音频在 Agora SD-RTN网络中实时传输的过程中完成语音内容识别与审核。首先通过独家研发的 AI 音频降噪引擎消除背景音,优化音频质量,让语音更加清晰,再通过不同的模块来检测,将语音转化为文字通过内容安全引擎进一步过滤,结合“多意义上下文短文本垃圾检测”、“Deep Learning 垃圾检测”、“规则引擎”和“分类器”等模块,过滤掉音频中涉政、涉黄、暴恐、辱骂等违规内容。人工审核团队可以通过 Web 端后台,对机器审核的结果进行抽查和复审,不断优化机器审核的准确率。[3]

数美科技旗下的全栈式智能内容识别产品“天净”,能够通过智能音频过滤技术提供强有力的音频内容识别支持。智能音频过滤技术采用基于ffmpeg的音频信息动态转码技术、基于深度学习的语音识别技术和智能特色语义分析技术,能够对绝大部分音频格式进行多场景、多维度地检测与识别,其中包括涉政、涉黄、广告导流等诸多类型。[4]

百度内容审核平台的音频内容安全模块[5]声纹检测及文本审核能力,能有效识别色情、娇喘、违禁、辱骂等违规语音内容,支持短音频实时检测、长音频及音频流异步检测等多种方式。

此外,网易易盾也提出了基于高精度多语种ASR模型、娇喘ASMR等声纹技术能力的自研算法,结合丰富的场景策略经验,能够精准识别色情、敏感、谩骂等违规音频内容[6]。   

方法介绍

基于音频的鉴黄技术包括了基于内容的音频分类算法[7]以及基于声音事件检测的算法[8]。

基于内容的音频检测常依赖于诸如梅尔倒谱系数(MFCC)等特性来实现音频的初步文本化,再利用文本分类模型来判断音频内容。这种方法的研究重心主要在于两个子任务:音频文本化,即语音识别和文本分类。如麻旭妍[9]提出了一种结合音频分类技术和模式匹配的方法。在此方法中,首先进行滤波、预处理和端点检测,以实现部分音频的分类与处理,从而进一步提纯音频,降低杂质并优化运算时空。其次,通过对比音频的几个特征参数,选定符合研究需求的MFCC特征参数。最后,利用LBG矢量量化和欧氏距离法进行检测识别。司朋举[10]通过收集和分析色情音频及文字小说,整理构建了色情音频和文本数据集,并融合语音识别与文本分类技术,提出了CA-PAD算法。然而,仅依赖内容的音频分类方法进行不良信息检测存在一些问题。初步语音识别的准确性会直接影响后续音频内容检测的误判率。同时,这种方法忽略了音频信号本身的时域、频域等特征信息。此外,对于包含无文本内容的音频,如色情歌曲、呻吟声或环境音等,基于内容的音频分类检测方法难以有效应用,且无法确定事件发生的具体时间。

音频事件检测(Sound Event Detection,简称SED)[11]是自然语言处理领域的一个重要子任务,它提供了一种有效的声学场景分类方法。该技术涵盖了场景分类、声音事件检测等多个方面,为电影、电视、直播及短视频等特定场景的内容检测提供了出色的解决方案,因此,音频事件检测算法在音频场景分析、自然语言处理、信息检索系统、音频情感分析和软件工程等多个领域均发挥了关键作用。近年来,随着声音事件检测的实际需求不断增长,该技术已引起国内外研究者的广泛关注。其主要目标是识别音频中的特定事件及其起始时间,目前在安全监控、情景分析、视频检索以及智能家居等多个领域均有重要应用。SED的常规做法是采用强标签数据(即同时标注了事件及其发生时间的音频数据)进行有监督学习。然而,这种方法存在标注过程耗时、易受主观因素影响的问题,且难以充分利用现实中大量的未标记音频数据。相对而言,弱标签数据(仅标注事件类别的音频数据)和无标签数据(无任何标注的音频数据)更易获取。鉴于仅依赖弱标签数据在实际应用中存在的诸多挑战,宫法明等[12]利用大量的未标记音频数据,结合少量的强标签和弱标签数据进行辅助训练。通过多层神经网络提取音频的帧和段特征,并迭代优化这些特征所产生的分类损失,从而构建了一个半监督学习的色情音频事件检测模型。   

在互联网的广阔天地中,信息传播渠道众多,但不良信息的存在也不容忽视。随着社会对青少年身心健康的日益重视,以及国家对网络内容监管的加强,有效监控软件平台上的不良音频传播显得尤为重要。得益于计算机和人工智能技术的进步,我们现在能够利用智能音频内容审核系统,自动识别和标注音频中的事件及其时间,从而极大地提高了审核效率,减轻了工作人员的负担,同时也为企业节省了人力成本。这一技术的应用,不仅有助于企业更好地遵守互联网内容传播规定,也是维护网络环境清朗、保护青少年身心健康的重要举措,为各方的长远发展提供了坚实保障。   

参考文献:

[1] 音频不良信息检测关键技术研究与应用.

[2] https://cloud.tencent.com/developer/article/1357559

[3] https://www.infoq.cn/article/ky2XV6ZF6LMhUKTUYMx9

[4] https://zhuanlan.zhihu.com/p/340214746

[5] https://ai.baidu.com/tech/speech/speechcensoring

[6] https://dun.163.com/product/audio-detection

[7] Text classification: a recent overview

[8] Sound event detection in real life audio using perceptual linear predictive feature with neural network

[9] 基于MFCC的不良音频检测的研究

[10] 面向色情音频检测的内容分类研究

[11] BLSTM-HMM hybrid system combined with sound activity detection network for polyphonic Sound Event Detection

[12] 基于改进教师-学生模型的色情音频事件检测

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/626379.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

如何申请免费一年SSL证书

申请免费一年的SSL证书可以通过以下几个步骤进行,这里以JoySSL为例,因为它是目前提供此类服务的流行平台之一,同时也提到了宝塔面板中的TrustAsia SSL证书。请根据您的具体需求选择合适的方式: 申请免费一年SSL证书: …

MIT 6.5840(6.824) Lab1:MapReduce 设计实现

1 介绍 本次实验是实现一个简易版本的MapReduce,你需要实现一个工作程序(worker process)和一个调度程序(coordinator process)。工作程序用来调用Map和Reduce函数,并处理文件的读取和写入。调度程序用来协…

游戏数值策划关卡策划文案策划系统策划及游戏运营干货

1.《游戏新手村》免费电子书 我2007年开始做网络游戏,后面又做过网页游戏和手机游戏。当时市面上关于游戏策划和运营的书籍屈指可数,于是我就想着要不我写一本吧,然后2014年10月开始撰写。关于本书的更多信息可查看这篇文章>> 游戏新手…

论Java和C++方向选择

目录 1.难度2.就业压力3.岗位选择4.薪资待遇5.选择建议小结 1.难度 Java ,C, 测开,整体来说三个方向难度相当。 1.仅从语法角度来看,c 是掌控一切,知识都要懂一点,而java的特点在于省心,都封装…

Google如何做医疗大模型(Med-Gemini)

1. 前言 开发垂直领域模型的方法有好几种,其中医疗、法律等专业是比较能体现模型垂直行业能力的,因此也深受各大厂商的重视。 五一小长假的第一天,Google在Arxiv上发布了《Capabilities of Gemini Models in Medicine 》 ( https://arxiv.o…

大模型LLM 结合联网搜索增强isou

参考: https://github.com/yokingma/search_with_ai 在线使用网址: https://isou.chat/ 安装github下载,运行docker compose 如果一直报下面错误: 解决方法https://github.com/yokingma/search_with_ai/pull/7 默认打开&a…

nginx 发布静态资源

一. nginx 发布静态资源 在nginx中nginx.conf配置文件中添加内容如下: server {listen 90;server_name localhost;# 配置静态资源文件,就可以访问了location / {root /home/fooie-shop;index index.html;}# 配置音频和图片资源location /imoo…

NSSCTF | [SWPUCTF 2021 新生赛]babyrce

打开题目&#xff0c;显示了一个php脚本 我们来分析一下这个脚本是什么意思 <?php error_reporting(0); header("Content-Type:text/html;charsetutf-8"); highlight_file(__FILE__); if($_COOKIE[admin]1) {include "../next.php"; } elseecho &quo…

Java——多线程

一.多线程 1.什么是多线程 线程是操作系统能够进行运算调度的最小单位。它被包含在进程之中&#xff0c;是进程的实际运作单位 简单理解多线程就是应用软件中相互独立&#xff0c;可以同时运行的功能(也可以理解为人体内相互独立&#xff0c;但可以同时运行的器官⌓‿⌓) 我们…

排序-冒泡排序(bubble sort)

冒泡排序&#xff08;Bubble Sort&#xff09;是一种简单的排序算法&#xff0c;它重复地遍历待排序的数列&#xff0c;一次比较两个元素&#xff0c;如果它们的顺序错误就把它们交换过来。遍历数列的工作是重复地进行直到没有再需要交换&#xff0c;也就是说该数列已经排序完成…

[牛客网]——C语言刷题day2

答案&#xff1a;B 解析&#xff1a; char *p[10] 是指针数组,数组里存放了10个指针,在64位系统下指针占8个字节,所以sizeof(p) 10 * 8 80. char (*p1)[10]是数组指针,p1是一个指向存放10个char类型的数组的指针,所以sizeof(p1) 8. 答案&#xff1a;B 解析&#xff1a…

0513student的Maven项目

0513student的Maven项目包-CSDN博客 数据库字段 主页需求 点击休学按钮&#xff0c; 实现对 ‘’是否休学‘’ ‘’休学操作‘’ 的相应修改&#xff1b; 还有对数据库中相应学生休学状态修改。

11 | 如何实现高性能的异步网络传输?

理想的异步网络框架应该是什么样的? 这就是同步网络 IO 的模型。同步网络 IO 模型在处理少量连接的时候,是没有问题的。但是如果要同时处理非常多的连接,同步的网络 IO 模型就有点儿力不从心了。 因为,每个连接都需要阻塞一个线程来等待数据,大量的连接数就会需要相同数量…

vue3+TS或JS, 实现粒子特效 @tsparticles/vue3

在跟着B站视频BV11s4y1a71T学习时&#xff0c;使用到了粒子效果&#xff0c;但是以下这种情况只适用于项目是基于typescript的写法&#xff0c;否则无法实现。 粒子效果 VUE3TStsparticles/vue31、安装2、main.ts 引入3、App.vue4、效果 VUE3JS非最新版1、安装低版本的vue3-pa…

基于Java+SpringBoot+Vue前后端分离幼儿园管理系统设计与实现(有视频讲解)

博主介绍&#xff1a;✌全网粉丝5W&#xff0c;全栈开发工程师&#xff0c;从事多年软件开发&#xff0c;在大厂呆过。持有软件中级、六级等证书。可提供微服务项目搭建与毕业项目实战&#xff0c;博主也曾写过优秀论文&#xff0c;查重率极低&#xff0c;在这方面有丰富的经验…

git-删除workspace.xml的跟踪

问题描述 .gitignore 文件内容如下&#xff1a; .pyc *.pyc user_files/ .vscode/ __pycache__//.idea/misc.xml /.idea/modules.xml /.idea/inspectionProfiles/profiles_settings.xml /.idea/inspectionProfiles/Project_Default.xml /.idea/batrp_webbackend-server-dev.i…

申请免费的必应搜索API

申请免费的必应搜索API 文章目录 申请免费的必应搜索API前言一、原理1.1 登录1.2 进入1.3 获取密钥1.4 申请VISA信用卡1.5 创建必应自定义搜索资源 二、创建成功 前言 准备条件&#xff1a; 1、outlook邮箱 2、招商银行全币种VISA信用卡【建议之前就有一张招商银行信用卡&…

棒材直线度测量仪 专为圆形产品研发设计 在线无损检测

棒材直线度测量仪采用了先进的技术&#xff0c;能够实现在线无损检测&#xff0c;为生产过程提供了极大的便利。专为圆形产品设计&#xff0c;它能够精确测量棒材的米直线度及外径、椭圆度尺寸&#xff0c;为质量控制提供可靠的数据支持。 在线直线度测量仪不仅具有出色的性能…

Spring整合其他技术

文章目录 Spring整合mybatis思路分析Mybatis程序核心对象分析整合Mybatis 代码实现 Spring整合Junit修改成警告 Spring整合mybatis 思路分析 Mybatis程序核心对象分析 上面图片是mybatis的代码&#xff0c;上述有三个对象&#xff0c;分别是sqlSessionFactory&#xff0c;sqlS…

UVa11419 SAM I AM

UVa11419 SAM I AM 题目链接题意分析AC 代码 题目链接 UVA - 11419 SAM I AM 题意 给出一个 RC 大小的网格&#xff0c;网格上面放了一些目标。可以在网格外发射子弹&#xff0c;子弹会沿着垂直或者水平方向飞行&#xff0c;并且打掉飞行路径上的所有目标&#xff0c;如下图所…