Speech | openSMILE语音特征提取工具

官方地址:openSMILE 3.0 - audEERING

使用指导:openSMILE — openSMILE Documentation (audeering.github.io)

openSMILE 简介

openSMILE是一款以命令行形式运行的工具,通过配置config文件来提取音频特征。主要应用于语音识别、情感计算、音乐信息获取。2.0版本之后的openSMILE包括了openCV库,可以用于视频处理和视频特征提取。
官网有linux和windows版本提供下载,windows可以不编译直接用,建议在命令行里指明 openSMILE 绝对路径。

openSMILE的输入输出格式
文件输入格式

  • RIFF-WAVE (PCM) (for MP3, MP4, OGG, etc. a converter needs to be used)
  • Comma Separated Value (CSV)
  • HTK parameter files
  • WEKA’s ARFF format.(由htk工具产生)
  • Video streams via openCV.(opencv产生的视频流数据)

文件输出格式

  • RIFF-WAVE (PCM uncompressed audio)
  • Comma Separated Value (CSV)
  • HTK parameter file
  • WEKA ARFF file
  • LibSVM feature file format
  • Binary float matrix format

分类器和其他组件
openSMILE还提供了许多VAD算法,用于判断各时间点有没有说话。

  • Voice Activity Detection based on Fuzzy Logic
  • Voice Activity Detection based on LSTM-RNN with pre-trained models
  • Turn-/Speech-segment detector
  • LibSVM (on-line)
  • LSTM-RNN (Neural Network) classifier which can load RNNLIB and CURRENNT nets
  • GMM (experimental implementation from eNTERFACE’12 project, to be release soon)
  • SVM sink (for loading linear kernel WEKA SMO models)
  • Speech Emotion recognition pre-trained models (openEAR)

0.openSMILE的安装

 0.1.Ubuntu20.04安装openSMILE

 其他系统安装

# 要求必须要有以下包git make gccg++ cmake perl5 gnuplot

#没有的话直接安装包名sudo apt-get install package-name

git clone https://github.com/audeering/opensmile.git

cd opensmile

bash build.sh

添加环境路径

#每个人的不同 ,查看路径pwd

#export PATH="自己的路径/opensmile/build/progsrc/smilextract:$PATH"

#我的
export PATH="/workspace/emo-vits/opensmile/build/progsrc/smilextract:$PATH"

# 更新
source /etc/profile

#查看版本
SMILExtract -h

 

0.2.openSMILE在Windows上的安装

打开Release openSMILE 3.0 · audeering/opensmile · GitHub

拉到页面最下面

点击下载安装包后,进行解压然后配置

0.3. pip方式安装

GitHub - audeering/opensmile-python: Python package for openSMILE

pip install opensmile

 相关库

pip install ffmpeg

 pip方式安装简单,但是只提供几种特征设置

    ComParE_2016 = 'compare/ComParE_2016'
    GeMAPS = 'gemaps/v01a/GeMAPSv01a'  # legacy
    GeMAPSv01a = 'gemaps/v01a/GeMAPSv01a'
    GeMAPSv01b = 'gemaps/v01b/GeMAPSv01b'
    eGeMAPS = 'egemaps/v01a/eGeMAPSv01a'   # legacy
    eGeMAPSv01a = 'egemaps/v01a/eGeMAPSv01a'
    eGeMAPSv01b = 'egemaps/v01b/eGeMAPSv01b'
    eGeMAPSv02 = 'egemaps/v02/eGeMAPSv02'
    emobase = 'emobase/emobase'

1.openSMILE使用

在使用时,根据安装方法不同,使用时稍有不同,pip安装的都有import opensmile,如果git安装的,配置好环境后直接使用SMILExtract命令就可以,在bash或python文件中一样使用~

1.1.提取单个语音特征

pip 安装

import opensmile

smile = opensmile.Smile(
    feature_set=opensmile.FeatureSet.ComParE_2016,
    feature_level=opensmile.FeatureLevel.Functionals,
)
y = smile.process_file('')

print(y)

结果

 1行6373列,代表所使用的特征opensmile.FeatureSet.ComParE_2016包含了6373种特征,例如mfcc等

1.2.读取指定文件中所有的语音文件

Windows处理时需要添加路径

依次处理,将生成的特征文件保存到另一个指定文件中,

import os
audio_path = 'C:/Users/Administrator/Desktop/download/wav'  # 音频文件所在目录
output_path='C:/Users/Administrator/Desktop/download/rebuild'   # 特征文件输出目录
audio_list=os.listdir(audio_path)   # 生成所有音频文件文件名的列表
features_list=[]
for audio in audio_list:    # 遍历指定文件夹下的所有文件
    if audio[-4:]=='.wav':
        this_path_input=os.path.join(audio_path, audio)  # 打开一个具体的文件,audio_path+audio
        this_path_output=os.path.join(output_path,audio[:-4]+'.txt')
        # &&连续执行;C: 进入C盘内;进入opensmile中要执行的文件的目录下;执行文件 -C 配置文件 -I 语音文件 -O 输出到指定文件
        cmd = 'C: && cd C:/Program/opensmile-2.3.0/bin/Win32 && SMILExtract_Release -C C:/Program/opensmile-2.3.0/config/IS09_emotion.conf -I ' + this_path_input + ' -O ' + this_path_output
    os.system(cmd)
print('over~')

1.3.批量处理生成特征的文本文件

提取组合出可以用来学习处理的矩阵文件。代码如下

import os
import pandas as pd

txt_path = 'C:/Users/Administrator/Desktop/download/rebuild'    # 特征文本文件所在目录
txt_list = os.listdir(txt_path)
features_list = []
for file in txt_list:    # 遍历指定文件夹下的所有文件
    if file[-4:] == '.txt':
        file_path = os.path.join(txt_path, file)
        # 打开输出文件
        f = open(file_path)
        # 最后一行是特征向量,取最后一行
        last_line = f.readlines()[-1]
        f.close()
        features = last_line.split(',')
        # 最后一行特征行的第一个元素为‘unknown’,最后一个为‘?’,都不是对应的特征,要去掉
        features = features[1:-1]
        features_list.append(features)
data_m = pd.DataFrame(features_list)
data_m.to_csv(os.path.join('C:/Users/Administrator/Desktop/download', 'test_data.csv'), sep = ',', header=False, index=False)
print('over')

1.4.Linux中提取单个语音特征的bash命令

SMILExtract -C thisconfig.conf -I input.wav -O output.arff 

#SMILExtract -C config/emobase/emobase2010.conf -I /workspace/emo-vits/dataset/p225v0.1/p225_001_mic1.wav -O output.arff 
  •  thisconfig.conf :指定的配置文件,也就是所需要的特征
  • input.wav :输入的语音文件
  • output .arff : 输出文件

 

输出arff文件如图

在训练时,主要使用最后一行向量特征。

1.5.Linux中批量提取语音数据集特征的python文件

import os
audio_path = '/workspace/emo-vits/dataset/p225v0.1'  # .wav file  path
output_path='/workspace/emo-vits/dataset/p225emo'   # feature file path
audio_list=os.listdir(audio_path)   
features_list=[]
for audio in audio_list:    # 遍历指定文件夹下的所有文件
    if audio[-4:]=='.wav':
        this_path_input=os.path.join(audio_path, audio)  # 打开一个具体的文件,audio_path+audio
        this_path_output=os.path.join(output_path,audio[:-4]+'.csv') # .txt/.csv
        # 进入opensmile中要执行的文件的目录下;执行文件 -C 配置文件 -I 语音文件 -O 输出到指定文件
        os.system( 'SMILExtract -C /workspace/tts/opensmile/config/emobase/emobase2010.conf -I ' + this_path_input + ' -O ' + this_path_output)
print('over~')
 

就会在指定文件夹生成音频对应的csv文件,

 提取文件后,对csv文件进行处理,提取数据特征向量部分

批量处理生成特征的文本文件,提取组合出可以用来学习处理的矩阵文件。

文件分俩步骤运行,一个是批量提取数据集语音的情感特征,第二步骤是将语音特征保存为一个npy文件,以便于数据的读取及使用。


# 步骤一 : 
import os
audio_path = '/workspace/emo-vits/dataset/p225v0.1'  # .wav file  path
output_path='/workspace/emo-vits/dataset/p225emo'   # feature file path

audio_list=os.listdir(audio_path)   
features_list=[]
for audio in audio_list:    # 遍历指定文件夹下的所有文件
    if audio[-4:]=='.wav':
        this_path_input=os.path.join(audio_path, audio)  # 打开一个具体的文件,audio_path+audio
        this_path_output=os.path.join(output_path,audio[:-4]+'.csv') # .txt/.csv
        # 进入opensmile中要执行的文件的目录下;执行文件 -C 配置文件 -I 语音文件 -O 输出到指定文件
        os.system( 'SMILExtract -C /workspace/tts/opensmile/config/emobase/emobase2010.conf -I ' + this_path_input + ' -O ' + this_path_output)
print('over 1 ~')



# 步骤二 :
# 读取csv文件
import os
import numpy as np
txt_path='/workspace/emo-vits/dataset/p225emo'
txt_list=os.listdir(txt_path)
features_list=[]
for txt in txt_list:
    if txt[-4:]=='.csv':
        this_path=os.path.join(txt_path,txt)
        f=open(this_path)
        last_line=f.readlines()[-1]
        print("last_line:",last_line)
        f.close()
        features=last_line.split(',')
        features=features[1:-1]
        features_list.append(features)
features_array=np.array(features_list)
np.save('p225_opensmile_features.npy',features_array)
print('over 2 ~')

 

更多语音处理工具请参考

Speech | 提取语音(数据集)的语音特征合集_夏天|여름이다的博客-CSDN博客

参考文献

【1】【音频特征】opensmile 工具的使用和批处理_weiquan fan的博客-CSDN博客

【2】openSMILE简介及使用 - 知乎 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/175322.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

请求的接口响应状态为已取消的原因

有趣的iframe问题 今天遇到一个问题,当点击了按钮----跳转页面时----F12键点击网络中的状态报了已取消,类型是 document说明是前端页面的问题,如果是xhr那可能是接口的问题。 原本是写了3个iframe,页面刷新的时候请求了第一个iframe,然后就…

centos7 怎么让命令行显示中文(英文->中文)

要让CentOS 7命令行显示中文,您需要确保您的系统支持中文字符集,并在命令行中设置正确的语言环境。以下是设置中文字符集和语言环境的步骤: 首先,确保您的系统已经安装了中文字体。在终端中运行以下命令来查看安装的中文字体&…

使用ExLlamaV2量化并运行EXL2模型

量化大型语言模型(llm)是减少这些模型大小和加快推理速度的最流行的方法。在这些技术中,GPTQ在gpu上提供了惊人的性能。与非量化模型相比,该方法使用的VRAM几乎减少了3倍,同时提供了相似的精度水平和更快的生成速度。 ExLlamaV2是一个旨在从…

IDEA-SVN合并分支到主干

IDEA-SVN合并branch分支到主干master 1.选择VCS的 Integrate Project 2.选择分支合并 Source1 是合并后的分支 , 主分支 master Source2 是被合并的分支 , 分支 branch Try merge 可以尝试是否可以能够被合并,并且无冲突 3.合并完成后当前项目会出现需要提交的内容,检查一…

从传统到智能 | 拓世法宝AI智能直播一体机为商家注入活力

2023年即将结束,直播仍然是商业舞台上的主旋律,本地生活也不例外。据数据显示,到2022年,中国本地生活服务市场规模已经达到29.8万亿元,而预计到2025年,这一数字将继续攀升至35.3万亿元。伴随着当地生活直播…

Walrus 入门教程:如何创建模板以沉淀可复用的团队最佳实践

模板是 Walrus 的核心功能之一,模板创建完成后用户可以重复使用,并在使用过程中逐渐沉淀研发和运维团队的最佳实践,进一步简化服务及资源的部署。用户可以使用 HCL 语言自定义创建模板,也可以一键复用 Terraform 社区中上万个成熟…

C# Onnx PP-HumanSeg 人像分割

目录 效果 模型信息 项目 代码 下载 效果 图片源自网络侵删 模型信息 Inputs ------------------------- name:x tensor:Float[1, 3, 192, 192] --------------------------------------------------------------- Outputs -------------------…

怎么做好品牌营销,小红书爆款笔记怎么做?

只要在小红书平台进行传播,能够尽可能多的创造爆款笔记,就是所有品牌方和达人的目标。今天来马文化传媒为大家分享下怎么做好品牌营销,小红书爆款笔记怎么做? 一、判断爆款笔记的三大指标 判断一篇笔记是否是爆款笔记,…

【量化】一个简版单档tick数据回测框架

这是一个简易的模拟实际交易流程的回测框架,所使用的行情数据是单档的tick成交数据。为了实现调用者可以实现自己的交易逻辑,本框架预留了几个函数予以调用者能够继承类后在子类中重写以实现买入卖出信号的生成(check_sell()和check_buy()&am…

逐字节讲解 Redis 持久化(RDB 和 AOF)的文件格式

前言 相信各位对 Redis 的这两种持久化机制都不陌生,简单来说,RDB 就是对数据的全量备份,AOF 则是增量备份,而从 4.0 版本开始引入了混合方式,以 7.2.3 版本为例,会生成三类文件:RDB、AOF 和记…

Mysql中正则表达式Regexp常见用法

Mysql中正则表达式Regexp常见用法_regexp不包含-CSDN博客

Uniapp扫码预览连接地址与手机不在同一网段

在开发Uniapp应用时,这里有一个扫码预览的功能,电脑与手机都是在一网络下,之前点开后预览地址一直是169.254.3.x的地址,通过WINR键输入cmd运行,然后ipconfig查看所有网络连接。发现有一个虚拟网络连接的地址是169.251.…

代码随想录Day51 完结篇 LeetCode T84 柱状图的最大矩形

前言 今天代码随想录一刷也告一段落了,没想到我居然坚持下来了,一节都没有落下,学习到了很多种不同的解题思路,也和大家一块交流了很多,哈哈也许不久以后我还得再次二刷代码随想录,希望这一系列的题解能给大家带来帮助,如想要系统学习,请参照代码随想录网站的题解以及b站的配套…

OpenLayers实战,WebGL图层根据Feature要素的变量动态渲染多种颜色和不同直径大小的圆形和圆点图形,适用于大量圆形圆点渲染不同颜色不同大小

专栏目录: OpenLayers实战进阶专栏目录 前言 本章使用OpenLayers根据Feature要素的变量动态渲染不同颜色和不同直径大小的圆形和圆点图形。 通过一个WebGL图层生成四种不同颜色和不同大小的圆形圆点图形要素,适用于WebGL图层需要根据大量点要素区分颜色区分不同大小显示圆形…

【开源】基于Vue.js的天然气工程业务管理系统的设计和实现

项目编号: S 021 ,文末获取源码。 \color{red}{项目编号:S021,文末获取源码。} 项目编号:S021,文末获取源码。 目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块三、使用角色3.1 施工人员3.2 管理员 四…

51单片机LED灯渐明渐暗实验

51单片机LED灯渐明渐暗实验 1.概述 这篇文章介绍使用单片机控制两个LED彩灯亮度渐明渐暗效果,详细介绍了操作步骤以及完整的程序代码,动手就能制作的小实验。 2.操作步骤 2.1.硬件搭建 1.硬件准备 名称型号数量单片机STC12C2052AD1LED彩灯无2晶振1…

《golang设计模式》第三部分·行为型模式-06-备忘录模式(Memento)

文章目录 1. 概述1.1 角色1.2 类图 2. 代码示例2.1 设计2.2 代码2.3 类图 1. 概述 备忘录(Memento)用于在不破坏目标对象封装特性的基础上,将目标对象内部的状态存储到外部对象中,以备之后恢复状态时使用。 1.1 角色 Originato…

ABAP调用Https接口 Ssl证书导入

ABAP调用Https接口 Ssl证书导入 一、证书导入 谷歌浏览器打开对方系统URL地址,下载SSL Server certificate,步骤如下: 浏览器打开要导出certificate(证书)的网站,点击这个小锁的图标: 点击连接是安全的后面小播放按钮 点击证…

【教3妹学编程-算法题】最大异或乘积

3妹:2哥,你有没有看到新闻“18岁父亲为4岁儿子落户现身亲子鉴定” 2哥 : 啥?18岁就当爹啦? 3妹:确切的说是14岁好吧。 2哥 : 哎,想我30了, 还是个单身狗。 3妹:别急啊, 2…

化繁为简——2021版本Adobe InDesign

今天,我们来谈谈Id软件,它是一个定位于专业排版领域的设计软件,虽然出道时间比较晚,但是在功能上反而更加完美与成熟。InDesign可以将文档直接导出为Adobe的PDF格式,而且有多语言支持。它也是第一个支持Unicode文本处理…