随着互联网的迅猛发展和网络智能化的普及,音视频内容已成为互联网传播的主流形式,各大视频网站、直播平台及短视频应用不断涌现,为亿万用户提供了丰富多样的娱乐和资讯内容。然而,这种繁荣背后也隐藏着不容忽视的问题:不良音频信息的传播日益猖獗,给社会风气、青少年健康成长以及国家安全带来了严重威胁。
传统的音频不良信息检测主要依赖于人工审核,这种方式不仅效率低下,而且容易受到人为因素的影响,导致误判或漏判的情况频发。随着音视频内容数量的激增,单纯依靠人力进行监管已无法满足实际需求。为此,一些企业尝试通过分类或关键字检测等传统算法来开发服务接口,如百度、网易云等服务接口,又如格雷盒子、净网大师等软件,但这些技术仅针对含有不良文字和图片内容的信息进行拦截。作为视频信息的重要一部分,音频的不良信息检测可以起到重要的补充作用,而目前这方面的工作仍需要依靠人工进行审核,在造成人力浪费的同时也存在误判漏判的情况[1]。
技术应用
为此腾讯云安全天御团队成功研发了基于音频的鉴黄系统,并已广泛应用于腾讯云的点播、直播等业务中,显著提高了色情内容的识别与过滤效率。该系统每日能够处理超过亿条的音视频内容,准确识别数十万条色情音视频,准确率高达95%以上。在面对音频内容和场景多样性、信噪比低、音频时长短以及语音质量参差不齐等问题,腾讯云采用了i-vector系统来确保较长音频的准确快速识别,同时利用DNN embedding系统对短音频进行特定检测,两者相互补充,结合多种信道补偿算法,确保了系统的高效性和实时性。此外,为了确保训练模型的准确性,腾讯云在样本标注方面进行了精细化处理,对色情音频进行了多标签区分,如色情尖叫声、喘息声等,以提升模型的识别能力。[2]
声网也提供了一站式智能语音识别方案,开发者只需要在应用中集成声网 Agora SDK,即可让音频在 Agora SD-RTN网络中实时传输的过程中完成语音内容识别与审核。首先通过独家研发的 AI 音频降噪引擎消除背景音,优化音频质量,让语音更加清晰,再通过不同的模块来检测,将语音转化为文字通过内容安全引擎进一步过滤,结合“多意义上下文短文本垃圾检测”、“Deep Learning 垃圾检测”、“规则引擎”和“分类器”等模块,过滤掉音频中涉政、涉黄、暴恐、辱骂等违规内容。人工审核团队可以通过 Web 端后台,对机器审核的结果进行抽查和复审,不断优化机器审核的准确率。[3]
数美科技旗下的全栈式智能内容识别产品“天净”,能够通过智能音频过滤技术提供强有力的音频内容识别支持。智能音频过滤技术采用基于ffmpeg的音频信息动态转码技术、基于深度学习的语音识别技术和智能特色语义分析技术,能够对绝大部分音频格式进行多场景、多维度地检测与识别,其中包括涉政、涉黄、广告导流等诸多类型。[4]
百度内容审核平台的音频内容安全模块[5]声纹检测及文本审核能力,能有效识别色情、娇喘、违禁、辱骂等违规语音内容,支持短音频实时检测、长音频及音频流异步检测等多种方式。
此外,网易易盾也提出了基于高精度多语种ASR模型、娇喘ASMR等声纹技术能力的自研算法,结合丰富的场景策略经验,能够精准识别色情、敏感、谩骂等违规音频内容[6]。
方法介绍
基于音频的鉴黄技术包括了基于内容的音频分类算法[7]以及基于声音事件检测的算法[8]。
基于内容的音频检测常依赖于诸如梅尔倒谱系数(MFCC)等特性来实现音频的初步文本化,再利用文本分类模型来判断音频内容。这种方法的研究重心主要在于两个子任务:音频文本化,即语音识别和文本分类。如麻旭妍[9]提出了一种结合音频分类技术和模式匹配的方法。在此方法中,首先进行滤波、预处理和端点检测,以实现部分音频的分类与处理,从而进一步提纯音频,降低杂质并优化运算时空。其次,通过对比音频的几个特征参数,选定符合研究需求的MFCC特征参数。最后,利用LBG矢量量化和欧氏距离法进行检测识别。司朋举[10]通过收集和分析色情音频及文字小说,整理构建了色情音频和文本数据集,并融合语音识别与文本分类技术,提出了CA-PAD算法。然而,仅依赖内容的音频分类方法进行不良信息检测存在一些问题。初步语音识别的准确性会直接影响后续音频内容检测的误判率。同时,这种方法忽略了音频信号本身的时域、频域等特征信息。此外,对于包含无文本内容的音频,如色情歌曲、呻吟声或环境音等,基于内容的音频分类检测方法难以有效应用,且无法确定事件发生的具体时间。
音频事件检测(Sound Event Detection,简称SED)[11]是自然语言处理领域的一个重要子任务,它提供了一种有效的声学场景分类方法。该技术涵盖了场景分类、声音事件检测等多个方面,为电影、电视、直播及短视频等特定场景的内容检测提供了出色的解决方案,因此,音频事件检测算法在音频场景分析、自然语言处理、信息检索系统、音频情感分析和软件工程等多个领域均发挥了关键作用。近年来,随着声音事件检测的实际需求不断增长,该技术已引起国内外研究者的广泛关注。其主要目标是识别音频中的特定事件及其起始时间,目前在安全监控、情景分析、视频检索以及智能家居等多个领域均有重要应用。SED的常规做法是采用强标签数据(即同时标注了事件及其发生时间的音频数据)进行有监督学习。然而,这种方法存在标注过程耗时、易受主观因素影响的问题,且难以充分利用现实中大量的未标记音频数据。相对而言,弱标签数据(仅标注事件类别的音频数据)和无标签数据(无任何标注的音频数据)更易获取。鉴于仅依赖弱标签数据在实际应用中存在的诸多挑战,宫法明等[12]利用大量的未标记音频数据,结合少量的强标签和弱标签数据进行辅助训练。通过多层神经网络提取音频的帧和段特征,并迭代优化这些特征所产生的分类损失,从而构建了一个半监督学习的色情音频事件检测模型。
在互联网的广阔天地中,信息传播渠道众多,但不良信息的存在也不容忽视。随着社会对青少年身心健康的日益重视,以及国家对网络内容监管的加强,有效监控软件平台上的不良音频传播显得尤为重要。得益于计算机和人工智能技术的进步,我们现在能够利用智能音频内容审核系统,自动识别和标注音频中的事件及其时间,从而极大地提高了审核效率,减轻了工作人员的负担,同时也为企业节省了人力成本。这一技术的应用,不仅有助于企业更好地遵守互联网内容传播规定,也是维护网络环境清朗、保护青少年身心健康的重要举措,为各方的长远发展提供了坚实保障。
参考文献:
[1] 音频不良信息检测关键技术研究与应用.
[2] https://cloud.tencent.com/developer/article/1357559
[3] https://www.infoq.cn/article/ky2XV6ZF6LMhUKTUYMx9
[4] https://zhuanlan.zhihu.com/p/340214746
[5] https://ai.baidu.com/tech/speech/speechcensoring
[6] https://dun.163.com/product/audio-detection
[7] Text classification: a recent overview
[8] Sound event detection in real life audio using perceptual linear predictive feature with neural network
[9] 基于MFCC的不良音频检测的研究
[10] 面向色情音频检测的内容分类研究
[11] BLSTM-HMM hybrid system combined with sound activity detection network for polyphonic Sound Event Detection
[12] 基于改进教师-学生模型的色情音频事件检测