使用SpeechRecognition和vosk处理ASR

SpeechRecognition可以支持多种模型语音转文字,感觉vosk还不错,使用起来也简单一些;百度也有PaddleSpeech,但是安装起来太麻烦,不是这个库版本不对就是那个库有问题,用起来不方便;

安装SpeechRecognition库:

pip install SpeechRecognition

安装vosk库:

pip install vosk

使用vosk库还需要下载对应的模型,去官网VOSK Models下载:

中文的有3个模型,模型小的运行快,准确度没有大的好,选一个下载完zip解压就行,代码里配置目录和模型,为了方便直接解压到项目目录里了:

另外需要wav语音测试文件,可以自己录音或者去在线免费文字转语音 - TTSMaker官网 | 马克配音 制造点wav语音文件;

demo:

#!/usr/bin/env python3
# coding = utf-8
"""
# Project: workspace_py
# File: test_speech_recognition_vosk.py
# Author: FlyLikeButterfly
# Time: 2024/4/15 11:05
"""
import speech_recognition as sr
from vosk import Model

r = sr.Recognizer()
r.vosk_model = Model(model_path='vosk_models/vosk-model-small-cn-0.22', model_name='vosk-model-small-cn-0.22')
# r.vosk_model = Model(model_path='vosk_models/vosk-model-cn-0.22', model_name='vosk-model-cn-0.22')
# r.vosk_model = Model(model_path='vosk_models/vosk-model-cn-kaldi-multicn-0.15', model_name='vosk-model-cn-kaldi-multicn-0.15')
with sr.AudioFile('test_24000_16.wav') as source:
    audio = r.record(source)
result = r.recognize_vosk(audio, language='zh-cn')
print(result)

运行结果:

返回结果是一个string字符串,可以用json转一下:

 结果:

注意支持的文件只有3种格式:WAV/AIFF/FLAC,使用其他格式的会报错:

另外SpeechRecognition也可以直接使用麦克风的录音:

with sr.Microphone() as mic:
    audio = r.listen(mic, timeout=3, phrase_time_limit=3)
result = r.recognize_vosk(audio, language='zh-cn')
print(result)

但是这个还需要安装pyaudio模块;

这个SpeechRecognition似乎没有直接提供读取bytes音频数据的接口,不过r.record方法和r.listen方法的返回值都是AudioData类,我们可以直接实例化AudioData给recognize_vosk()方法用,这个类的构造方法解释如下:

第一个参数,可以使用音频的bytes数据,wav和pcm都可以;

第二个参数,是音频的采样率Hz,8000Hz、16000Hz等等;

第三个参数,是采样位宽,单位是字节,16位采样是2个字节,8位采样是1字节,支持1-4;

测试代码块:

with open('test_24000_16.wav', 'rb') as wav_file:
    wav_data = wav_file.read()
wav_source = sr.AudioData(wav_data, 24000, 2)
wav_result = r.recognize_vosk(wav_source, language='zh-cn')
print(wav_result)

with open('test_8000_16.pcm', 'rb') as pcm_file:
    pcm_data = pcm_file.read()
pcm_source = sr.AudioData(pcm_data, 8000, 2)
pcm_result = r.recognize_vosk(pcm_source, language='zh-cn')
print(pcm_result)

运行结果:

只是这个库好像没有标点恢复功能,百度的那个有标点恢复;

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/545407.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

python读取文件数据写入到数据库中,并反向从数据库读取保存到本地

学python,操作数据库是必不可少的,不光要会写python代码,还要会写SQL语句,本篇文章主要讲如何把本地txt文件中的数据读取出来并写入到对应的数据库中,同时将数据库单个表中的数据读出来保存在本地txt文件中。 话不多说…

测试人必看,11个非技术高频面试问题

大家都知道,测试岗位可是保证产品质量的重要一环。除了技术能力,面试官还会关注你的其他方面的素质。包括沟通能力、团队协作、解决问题等方面。 今天,咱们就来聊聊这些看似简单,实则暗藏玄机的非技术问题。 1、请你做一下自我介…

Linux系统编程---文件系统

一、文件存储 一个文件主要由两部分组成,dentry(目录项)和inode inode本质是结构体,存储文件的属性信息,如:权限、类型、大小、时间、用户、盘块位置… 也叫做文件属性管理结构,大多数的inode都存储在磁盘上。 少量…

Docker镜像,什么是Docker镜像,Docker基本常用命令

docker镜像 1.1什么是镜像,镜像基础 1.1.1 镜像的简介 镜像是一种轻量级,可执行的独立软件包,也可以说是一个精简的操作系统。镜像中包含应用软件及应用软件的运行环境,具体来说镜像包含运行某个软件所需的所有内容,…

免费领!赛盈分销联合UseePay发布《2024全球户外家居电商市场分析报告》

随着全球化的浪潮愈演愈烈,家居行业正在经历着深刻的变革与转型。过去几年,随着消费升级和科技创新的推动,家居行业呈现出以下几个明显趋势: 智能化与互联网家居 智能家居产品不断涌现,人们对于智能、便捷的家居生活…

Nacos 入门篇---服务端如何处理客户端的服务注册请求?(三)

一、引言 ok呀,上个章节我们讲了Nacos客户端的服务自动注册,今天我们来看看服务端接收到了客户端的服务注册请求,服务端都做了哪些事情~ 二、目录 目录 一、引言 二、目录 三、回顾上节内容: 四、Nacos 服务代码入…

react antd 实现修改密码(原密码,新密码,再次输入新密码,新密码增加正则复杂度校验)

先看样子 组件代码: import React, { useState, useEffect } from react import { Row, Col, Modal, Spin, Input, Button, message, Form } from antd import { LockOutlined, EyeTwoTone, EyeInvisibleOutlined } from ant-design/icons import * as Serve from …

改进 Elastic Agent 和 Beats 中的事件队列

作者:Fae Charlton, Alexandros Sapranidis 内部改进如何降低 Elastic 8.13 中的内存使用。 在 8.12 版本中,我们引入了性能预设 —— 一种更简单的方法,用于调整 Elastic Agent 和 Beats 以适应各种场景。这提高了常见环境的性能&#xff0…

喜讯|我司再次获得国家发明专利,硬核科技研发成果呈加速度增长

热烈祝贺 璞华软件成功获得国家发明专利 我司自主研发成果《一种工伤案件裁决书的生成方法及装置》(专利号:ZL 2019 1 1170975.8)成功获得国家发明专利,2024年4月成功获得专利证书。 发明人:高志凯;杨德…

微商商城源码小程序好用么?

商城APP作为电子商务行业的重要组成部分,已经成为了人们购物的主要方式之一。为了在竞争激烈的市场中脱颖而出,开发一款专业且思考深度的商城APP方案显得尤为关键。本文将从专业性和思考深度两个方面,探讨商城APP的开发方案。 一、专业性的重…

BGI | STCellBin:动植物组织细胞分割

简介 STCellbin 利用细胞核染色图像作为桥梁来获取与空间基因表达图谱对齐的细胞膜/壁染色图像。通过采用先进的细胞分割技术,可以获得准确的细胞边界,从而获得更可靠的单细胞空间基因表达谱。此次更新的增强功能为细胞内基因表达的空间组织提供了宝贵的…

uc网盘推广拉新渠道

​近期,UC网盘拉新项目在收益上展现出了一些明显的优势,这些优势对于推广者来说是非常吸引人的。以下是对这些优势的详细分析: 上手容易:与其他项目相比,UC网盘的报备审核过程相对宽松,速度也更快。在快节奏…

Parameter-Efficient Fine-Tuning for Large Models: A Comprehensive Survey

Parameter-Efficient Fine-Tuning for Large Models: A Comprehensive Survey PDF: https://arxiv.org/pdf/2403.14608.pdf 1 概述 大型模型在多个领域取得了显著进展,但它们的大规模参数带来了高昂的计算成本。这些模型需要大量资源来执行,尤其是在针…

【python】__name__函数的用法详解!

上一篇中,说到了__init__函数的使用,__init__函数是在类中实现,它在创建对象时自动执行,用于初始化对象的属性。今天我们来说一下__name__函数,__name__函数的主要作用为: 1.执行python脚本 2.导入到别的…

哪种裤子比较百搭?显高显瘦的男生裤子分享

选到合适的裤子才能穿得好看以及舒服。可是市面上也出现了不少各种裤子质量达不到标准的负面新闻,为了能够选到合适的裤子,我自费购买了多个品牌的裤子测评。之后我知道很多网红品牌为了压低成本,用料和做工都很差,于是我总结了五…

Python和Java哪个更适合后端开发?

Python和Java都是强大的后端开发语言,它们各自有鲜明的特点和适用场景。选择哪一个更适合后端开发,主要取决于具体的项目需求、团队技术栈、个人技能偏好以及长期发展考虑等因素。 下面是两者在后端开发中的优势和劣势: 「Python&#xff1…

TCP/IP协议—TCP

TCP/IP协议—TCP TCP协议TCP通信特点TCP技术概念TCP定时器 TCP头部报文TCP连接三次握手(建立连接)四次挥手(释放连接)连接状态 TCP协议 传输控制协议(TCP,Transmission Control Protocol)是一种…

《柳叶刀》子刊:突破性临床试验,证实粪菌移植治疗帕金森病的潜力

帕金森病(Parkinson’s Disease,PD),是一种复杂的神经退行性疾病,也是世界上第二常见的神经退行性疾病,仅次于阿尔茨海默病(AD),影响着约1%-2%的65岁及以上老人。随着全球…

Ribbon-负载均衡原理解析(案例)

简介:负载均衡,英文名称为Load Balance,其含义就是指将负载(工作任务)进行平衡、分摊到多个操作单元上进行运行,例如FTP服务器、Web服务器、企业核心应用服务器和其它主要任务服务器等,从而协同…

明厨亮灶厨师帽佩戴检测的难点与优化方式 Yolov5+bytetrack

随着国家一系列食品安全政策的出台,厨房的安全卫生问题逐渐被人们重视。其中,工作人员是否佩戴厨师帽是很关键的一环。人们希望能通过一种方式实现自动化的检测,但目前市场上大部分“明厨亮灶系统”或“未佩戴厨师帽检测系统”都无法满足用户…