使用高斯混合模型(GMM)进行猫狗音频聚类(Kaggle Audio Cats and Dogs)

Audio Cats and Dogs | Kaggle

目录

一、实验目标

二、数据分析

三、实验结果

四、改进方向


一、实验目标

        数据集包括164个标注为猫的.wav文件,总共1323秒和113个标注为狗叫声的.wav文件,总共598秒,要求判别每个音频是狗叫还是猫叫

二、数据分析

        随机播放了一些音频,然后使用下面的代码输出了他们的声谱图、频率随时间变化和梅尔倒频率系数的热力图:

# 读取音频文件
Audio = np.array(librosa.load('./cats_dogs/cat_86.wav')[0])
SampleRate=librosa.load('./cats_dogs/cat_86.wav')[1]
# 绘制声谱图
plt.plot(Audio)
plt.show()
#绘制频率随时间变化的波形图
plt.specgram(Audio, Fs = SampleRate)
plt.show()
#绘制梅尔频率倒谱系数热图
MFCC = librosa.feature.mfcc(y = Audio, sr = SampleRate)
plt.imshow(MFCC, cmap = 'hot')
plt.show()

        发现一些音频10秒左右的长度中只有不到3秒的动物叫声,其他都是一些杂音,在6s左右的地方还是能看出来猫的声音特征的:

cat_1.wav:

有一些音频是没有动物叫声的,只有杂音,从频率图可以看出没有猫的特征:

cat_41.wav

还发现了一个音乐片段,也是与猫的特征完全不同:

cat_123.wav:

也有最容易辨别的,只有叫声的音频,猫的特征最为明显:

cat_9.wav

狗叫声听上去大部分都比较正常(不过也发现有像dog_barking_108.wav是杂音)

dog_barking_39.wav:

        其他的音频就不过多展示了,可以看出猫叫声的频率在2000及以上最高,狗叫声频率分布在2000以下,猫叫声的MFCC热力图颜色浅,而狗的热力图颜色深

三、实验探究不同参数的影响

        我们这里选择了差距看上去更大一点的MFCC作为音频特征,更准确的说是MFCC均值,构建高斯混合模型,并使用期望最大化算法进行训练,代码如下:

#音频特征
Features = []
#音频标签
Labels = []
#遍历277个音频文件
for File in os.listdir("./cats_dogs"):
    #获取音频时间序列和采样率 
     y, sr = librosa.load("./cats_dogs/"+File)
     #计算音频的MFCC
     #MFCC的计算过程通常包括以下几个步骤:对原始信号进行傅里叶变换,以将其从时域转换到频域;接着将线性频率尺度转换为梅尔频率尺度;然后通常取其对数并施加离散余弦变换(DCT),最终得到倒谱系数。
     MFCC = librosa.feature.mfcc(y=y, sr=sr,n_mfcc=100)
     #计算MFCC的平均值作为特征
     Features.append(np.mean(MFCC, axis=1))
     if File[0]=='c':
         Labels.append(0)
     else:
         Labels.append(1)

Features=np.array(Features)
Labels=np.array(Labels)
#构建高斯混合模型
GMM=GaussianMixture(n_components=2,covariance_type='full',tol=1e-3,reg_covar=1e-6,max_iter=100,n_init=1,random_state=2)
#通过期望最大化算法对模型进行聚类并预测
GMM.fit(Features)
Predictions = GMM.predict(Features)
#输出测试的准确率
Accuracy = accuracy_score(Labels, Predictions)
print(confusion_matrix(Labels,Predictions))
print("Accuracy:", Accuracy)

1.默认参数

        首先用的是默认参数,两个单高斯模型,每个分量有不同的协方差矩阵,收敛阈值1e-3,协方差正则化参数1e-6,EM算法最大迭代次数100,随机初始化1次,随机数种子=2,初始化参数方法Kmeans

结果:

        

通过混淆矩阵可以看出,狗的正确率达到了64%,而猫的正确率只有54%,这个差距应该和数据集有关,标注为狗的音频质量比猫要高一些

2.协方差正则化参数

        先改这个参数的原因是本来想先改协方差矩阵,但是改了后发现提示拟合失败,建议提高正则化参数,以下是正则化参数=[1e-6,1e-5,1e-4,1e-3,1e-2,1e-1,1]时的结果

只有等于1时出现了准确率下降,其他值时对准确率没有影响

        从理论上来说,当正则化参数较大时,协方差矩阵会更倾向于接近于0,有助于减少模型复杂度,可以避免过拟合,但可能会引入偏差,而且本实验因为数据集很小,所以没有分训练集和测试集;当正则化参数值较小时,模型能够更好地捕捉到数据的真实分布,但也容易过度拟合,也可能因为过于复杂出现拟合失败。

        后续实验中采用1e-5这个值,在保证不会拟合失败的前提下增加模型的复杂度

3.协方差类型

        协方差类型决定了模型在处理特征间的相关性和数据分布的假设,采用了4种协方差矩阵模式,[full,tied,diag,spherical]

            

        完全协方差(full)中 每个高斯分量都拥有独立的一般协方差矩阵,能够处理分量间复杂的形状和方向差异,需要估计更多的参数。

        共享协方差(tied)中所有高斯分量共享同一个一般协方差矩阵。减少了需要估计的参数数量,降低了模型复杂性。

        对角协方差(diag)中协方差矩阵只有对角线上的元素是非零,这意味着模型只考虑每个特征与自身的方差,忽略了特征间的协方差,进一步减少了模型的复杂度。

        球形协方差 (‘spherical’)中每个高斯分量具有相同的球形协方差,更进一步简化了模型。是参数设置中最简单的模型,计算需求最低。

        从图表中可以看出大致趋势是模型复杂度越低准确率越高,这可能是因为该数据集的质量过低导致的,而球形协方差复杂度过低也会导致拟合准确率下降,后续实验都采用效果最好的对角协方差。

        4.容忍度和最大迭代次数

        容忍度(tolerance)参数,用于控制在期望最大化算法迭代过程中,似然性或下界的变化小于何值时阈值时收敛。我们得到的结果是容忍度越大准确率越高,而在低于1e-3时也没有zh,可能依然时因为数据集质量过低,算的多反而不准确,后续实验采用准确率最高的1e-3。

        最大迭代次数(max_iter)指的是期望最大化算法在达到该迭代次数后,即使没有满足容忍度,也会提前终止,该结果同样证明了对于该数据集来说算的越多准确率可能越低

5.初始化次数        

        初始化次数决定了算法尝试寻找模型最佳参数的次数,在调整次数之前先取消设定随机数种子

        

        通过多次初始化,可以降低模型因单次不幸运的初始化导致收敛到局部最优或不合理的结果的风险。所以提高初始化次数可以一定程度上的提高准确率,单不需要过高,因为其会明显影响运算时间

四、改进方向

        要提高正确率,首先可以对数据进行清晰,包括对音频中无关部分进行裁剪,去除无关音频,具体清洗方法也许可以从频率图入手

        其次可以对GMM模型进行调参,以及尝试使用频率作为特征等

        

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/725652.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Spark SQL函数详解:案例解析(第8天)

系列文章目录 1- Spark SQL函数定义(掌握) 2- Spark 原生自定义UDF函数案例解析(掌握) 3- Pandas自定义函数案例解析(熟悉) 4- Apache Arrow框架案例解析(熟悉) 5- spark常见面试题…

Centos 配置安装Mysql

linux安装配置mysql的方法主要有yum安装和配置安装两种,由于yum安装比较简单,但是会将文件分散到不同的目录结构下面,配置起来比较麻烦,这里主要研究一下配置安装mysql的方法 1、环境说明 centos 7.9 mysql 5.7.372、环境检查 …

ChatGPT Plus GPT-4o Claude 3 Opus合租拼车全新方式

无需自己搭建,登录即可用,国内直连访问,聚合多家最强大模型,随意选择使用。立即体验 datapipe.top 支持 OpenAI 最新 GPT-4o ,获得快速高质量的对话,保证可用配额。支持多种大模型,GPT-4o &…

SerialChart上位机使用详解

SerialChart 上位机 软件分为三个区域:接收数据区,用于显示串口接收的数据。参数配置区,用于配置串口参数和显示参数。波形显示区,显示串口数据的波形。 在参数配置区写入串口号,波特率,通道波形颜色等&am…

高压电阻器支持牙科 X 射线成像的准确性

为了捕获患者牙齿和颌骨的足够图像,牙医依靠锥形束计算机断层扫描 (CBCT) 系统的先进 3D 成像。CBCT系统的输出对于准确诊断口腔健康问题和随后的治疗计划至关重要。为了确保这些图像的可靠性,CBCT系统制造商利用了Exxelia Ohmcra…

Jenkins+K8s实现持续集成(一)

镜像仓库的搭建 docker run -d \--restartalways \--name registry \-p 5000:5000 \-v /root/devops/registry/data:/var/lib/registry \registry安装完之后,执行下面命令可以看到镜像仓库已经安装成功 docker ps 然后在浏览器上输入下面地址进行访问 http://ip:…

一键简易桌签(带背景)-Word插件-大珩助手

问题整理: 如何Word中设计简易桌签?如何设置带背景图的桌签? Word大珩助手是一款功能丰富的Office Word插件,旨在提高用户在处理文档时的效率。它具有多种实用的功能,能够帮助用户轻松修改、优化和管理Word文件&…

Python酷库之旅-比翼双飞情侣库(17)

目录 一、xlwt库的由来 1、背景和需求 2、项目启动 3、功能特点 4、版本兼容性 5、与其他库的关系 6、示例和应用 7、发展历史 二、xlwt库优缺点 1、优点 1-1、简单易用 1-2、功能丰富 1-3、兼容旧版Excel 1-4、社区支持 1-5、稳定性 2、缺点 2-1、不支持.xls…

LVGL开发教程-Flex(弹性布局)

系列文章目录 知不足而奋进 望远山而前行 目录 系列文章目录 文章目录 前言 1.常用方法 2.代码实现 3.对齐方式 4.控件特殊的size 总结 前言 Flexbox布局在现代界面设计中扮演着重要角色,特别是在响应式和动态布局方面。LVGL(LittlevGL&#x…

Dockerfile封装制作pytorch(tensorflow)深度学习框架 + jupyterlab服务 + ssh服务镜像

一:docker-hub官网寻找需求镜像 1.我们在https://hub.docker.com/官网找到要封装的pytorch基础镜像,这里我们以pytorch1.13.1版本为例 2.我们找到的这个devel版本的镜像(我们需要cuda的编译工具) pytorch版本是1.13.1,…

气体泄露隐患多,佛山工业可燃气体报警器年检校准来帮忙

在佛山这座工业发达的城市,可燃气体报警器的应用日益广泛,涉及化工、冶金、石油等多个领域。 然而,长时间的使用和恶劣的工业环境可能导致报警器的性能下降,甚至出现误报或漏报的情况。 因此,定期对可燃气体报警器进…

OPenCV实现把人形轮廓画在实时视频画面中

操作系统:ubuntu22.04OpenCV版本:OpenCV4.9IDE:Visual Studio Code编程语言:C11 1.功能描述 当你从摄像头读取实时视频时,如果想在视频的画面中画一个方框,或者是画一个圆,是很简单的事情,可是…

VMR,支持30+种编程语言的SDK版本管理器,支持Windows/MacOS/Linux。

官方文档地址:documents 官方项目地址:github 欢迎安装使用,分享转发,前往github star。 跨平台,支持Windows,Linux,MacOS支持多种语言和工具,省心受到lazygit的启发,拥…

LLM漫谈(七)| 使用PyTorch从零构建LLM

LLM是最流行AI聊天机器人的核心基础,比如ChatGPT、Gemini、MetaAI、Mistral AI等。在每一个LLM,有个核心架构:Transformer。我们将首先根据著名的论文“Attention is all you need”-https://arxiv.org/abs/1706.03762 来构建Transformer架构…

漏洞挖掘 | 记一次src挖掘-小程序敏感信息泄露

权当是一次漏洞挖掘的思路分享 闲言 就现在的一个web漏洞挖掘强度还是非常高的,所以我们不妨把我们的眼光投向一个之前可能未曾涉及到的区域———小程序 是的微信小程序,这玩意的防范能力和过滤能力其实对比web方向是要弱小很多的 进入正题 以下就是…

详细分析Element Plus的el-pagination基本知识(附Demo)

目录 前言1. 基本知识2. Demo3. 实战 前言 需求:从无到有做一个分页并且附带分页的导入导出增删改查等功能 前提一定是要先有分页,作为全栈玩家,先在前端部署一个分页的列表 相关后续的功能,是Java,推荐阅读&#x…

配置环境常规操作

一、看看显卡情况 1、看显卡驱动: nvidia-smi 2、验证cuda是否安装成功 nvcc -V 二、conda创建环境 conda create --name PatchCore_anomaly_detection python3.9 conda activate PatchCore_anomaly_detection 三、配置虚拟环境 cd C:\BaiduNetdiskDownload…

不同表格式下的小文件治理方式(开源RC file/ORC/Text非事务表、事务表、Holodesk表格式..)

友情链接: 小文件治理系列之为什么会出现小文件问题,小文件过多问题的危害以及不同阶段下的小文件治理最佳解决手段 小文件过多的解决方法(不同阶段下的治理手段,SQL端、存储端以及计算端) 概览 在前两篇博文中&am…

OceanBase v4.2 特性解析:支持并发建表,提升OMS导入效率

背景 OceanBase 4.0版本新增了单日志流架构,使得OBServer单机突破了原有的分区数限制,支持更大数量的分区。 很多业务环境为了处理单机数据量过大的问题,通常采取分库分表的方法,这一方法会导致业务需要创建数十万乃至百万级别的…

Java安全

Java安全 Java2Sec靶场搭建 靶场地址 https://github.com/bewhale/JavaSec 查看数据库配置文件,mysql,用户名密码根据自己数据库密码更改 使用小皮面板的mysql,新建一个数据名为javasec的数据库 运行javasec.sql文件 下载运行jar包即可 …