【Python音视频技术】Python音视频技术系列文章2---视频提取音频转换文字

接上一篇文章  【Python音视频技术】玩AI视频创作引发写Python音视频技术系列文章1---视频添加字幕

之前我想在视频中提取音频转换文字, 当时是用 PC剪映专业版搞定的, 详情见 【AI+应用】模仿爆款视频二次创作短视频操作步骤     。  这里我准备用python来实现类似功能。

先上自己简单写的示例代码:

这里的原视频用的【人工智能】AI视频二次创作演示  

​​​​​​​

import moviepy.editor as mpimport speech_recognition as sr

def video_to_text(filePath, fileName):    video = mp.VideoFileClip(filePath + fileName)
    audioPath = filePath + '/converted.wav'    video.audio.write_audiofile(audioPath)
    r = sr.Recognizer()    with sr.AudioFile(audioPath) as infile:        audio = r.record(infile)        print(r.recognize_sphinx(audio))

if __name__ == '__main__':    video_to_text("/Users/lwj", "/spring.mp4")

代码简单解释下,  先把视频转换成音频文件(这里转换成wav格式),然后SpeechRecognition离线识别文字。

需要注意的是SpeechRecognition支持语音文件类型:

WAV: 必须是 PCM/LPCM 格式AIFFAIFF-CFLAC: 必须是初始 FLAC 格式;OGG-FLAC 格式不可用

recognize_sphinx()语音识别器,它既可以联网工作,也可以离线工作,离线必须安装pocketsphinx库。

这里采用离线方式。    

pip3 install SpeechRecognition

pip3 install pocketsphinx

备注: moviePy安装可以参考上一篇文章,这里就不细写了。

 python3 video_to_text.py

直接安装运行后会发现, 对应目录产生了音频文件, 生成的文字等待了很长时间,出来一堆牛头不对马嘴的英文。 这时候,我在想,应该是要找安装 中文声学模型、语言模型和字典文件。

参照网上的做法:先找中文包下载地址:

https://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/Mandarin/

图片

python安装目录下找到Lib\site-packages\speech_recognition:

如果你有很多python安装版本,不知道Python路径,可以通过命令

 pip3 show speechRecognition 查找。

图片

点击进入pocketsphinx-data文件夹,并新建文件夹zh-CN:在这个文件夹中添加进入刚刚解压的文件,需要注意:把解压出来的zh_cn.cd_cont_5000文件夹重命名为acoustic-model、zh_cn.lm.bin命名为language-model.lm.bin、zh_cn.dic中dic改为pronounciation-dictionary.dict格式。

图片

修改了代码 print(r.recognize_sphinx(audio)) 为

print(r.recognize_sphinx(audio, language='zh-cn'))

重新运行 python3 video_to_text.py, 音译的什么玩意。  还是有点牛头不对马嘴。 

个人猜想有2个原因,待确定。

1、pocketsphinx离线版中文音译并不理想

2、我这个原视频杂音太多,除了字幕的音频,还有音乐。影响具体的文字识别。后续找个其他视频试一下。

文章先到这里。主要是因为本周末下午天气很好,待会陪小孩玩足球,先不折腾了。 这个只是跑通了流程,并不是太满意实际效果。

未完待续

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/484812.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

铁道障碍物检测6种YOLOV8

铁道障碍物检测6种,采用YOLOV8训练,得到PT模型,然后转换成ONNX模型,OPENCV调用 铁道障碍物检测6种YOLOV8

android Fragment 生命周期 方法调用顺序

文章目录 Introlog 及结论代码 Intro 界面设计:点击左侧按钮,会将右侧 青色的RightFragment 替换成 黄色的AnotherRightFragment,而这两个 Fragment 的生命周期方法都会打印日志。 所以只要看执行结果中的日志,就可以知道 Fragme…

Linux 系统 快速卸载docker

(卸载前一定要做好相关数据的备份) 卸载: 第一种卸载方法 1、查询docker安装过的包: yum list installed | grep docker 2、删除安装包: yum remove docker-ce.x86_64 ddocker-ce-cli.x86_64 -y 3、删除镜像/容器等 rm -rf /var/lib/dock…

IT运维服务规范标准与实施细则

一、 总则 本部分规定了 IT 运维服务支撑系统的应用需求,包括 IT 运维服务模型与模式、 IT 运维服务管理体系、以及 IT 运维服务和管理能力评估与提升途径。 二、 参考标准 下列文件中的条款通过本部分的引用而成为本部分的条款。凡是注日期的引用文件&#xff0c…

基于QT的实现的人脸识别、人脸标记、人脸比对

该项目使用的人脸模型框架采用的是seetaface开源版本,经过测试发现效果还算可以。 人脸识别的效果图如下: 人脸比对的效果图如下: 鉴于测试识别的精度特意找了不同两人相似的人脸进行比对,效果如下图: 由于该模型采用的阈值是0.6…

前端框架前置课(1)---AJAX阶段

1. AJAX入门 1.1 AJAX概念和axios使用 1.1.1 什么是AJAX? 1.1.2 怎么用AJAX? 引入axios.js 获取省份列表数据 1.2 认识URL 1.3 URL查询参数 1.4 常用请求方和数据提交 1.5 HTTP协议-报文 1.5.1 HTTP响应状态码 1.5.1.1 状态码:1XX(信息&#xff09…

vulhub中Apache Shiro 认证绕过漏洞复现(CVE-2020-1957)

Apache Shiro是一款开源安全框架,提供身份验证、授权、密码学和会话管理。Shiro框架直观、易用,同时也能提供健壮的安全性。 在Apache Shiro 1.5.2以前的版本中,在使用Spring动态控制器时,攻击者通过构造..;这样的跳转&#xff0…

Oracle等待事件-db file parallel read

前面两篇聊了Oracle等待事件-db file scattered read和Oracle等待事件-db file sequential read 相比于前两者等待事件只有读,但是到db file parallel 就有db file parallel read 和 db file parallel write db file parallel read是指当进程并行发出多个 I/O 请求以将数据…

Linux虚拟机的安装部署--尚硅谷笔记

part1 VMware的使用 学习目标 1 熟悉VMware软件的使用 2 可以熟练为虚拟计算机安装Linux操作系统 3 能独立解决安装过程中的常见问题 第一节 VMware的作用 VMware软件的作用 ![外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传] 第一步,在W…

DFS基础——迷宫

迷宫 配套视频讲解 关于dfs和bfs的区别讲解。 对于上图,假设我们要找从1到5的最短路,那么我们用dfs去找,并且按照编号从大到小的顺序去找,首先找到的路径如下, 从节点1出发,我们发现节点2可以走&#xff…

面试算法-88-反转链表

题目 给你单链表的头节点 head ,请你反转链表,并返回反转后的链表。 示例 1: 输入:head [1,2,3,4,5] 输出:[5,4,3,2,1] 解 class Solution {public ListNode reverseList(ListNode head) {if(head null || hea…

opencv-批量调整图片的曝光率

#--coding:utf-8-- import cv2 import numpy as np import osdef gamma_trans(img,gamma):#gamma函数处理gamma_table[np.power(x/255.0,gamma)*255.0 for x in range(256)]#建立映射表gamma_tablenp.round(np.array(gamma_table)).astype(np.uint8)#颜色值为整数return cv2.LU…

2024年最新阿里云服务器价格表(配置价格+带宽价格+磁盘)

2024年腾讯云服务器优惠价格表,一张表整理阿里云服务器最新报价,阿里云服务器网整理云服务器ECS和轻量应用服务器详细CPU内存、公网带宽和系统盘详细配置报价单,大家也可以直接移步到阿里云CLUB中心查看 aliyun.club 当前最新的云服务器优惠券…

WindowsServer2008 安装

一、镜像包 链接:https://pan.baidu.com/s/1t4ju_NN2Od4_1HXeWimaPw?pwd58uq 提取码:58uq 二、安装步骤 第一步:点击创建新的虚拟机 第二步:点击下一步 ( 可以选典型,也可以选择自定义) 第…

JavaScript基础知识汇总【全!】

JavaScript 基础 JavaScript 运行在客户端的脚本语言,不需要编译,由js解释器(js引擎)逐行解释执行。Node.js也可以用于服务器端编程。JavaScript组成: ECMAScript(JavaScript语法)、DOM(文档对象模型)访问HTML文档的所有元素、BOM(浏览器对象模型)它使J…

LeetCode-热题100:42. 接雨水

题目描述 给定 n 个非负整数表示每个宽度为 1 的柱子的高度图,计算按此排列的柱子,下雨之后能接多少雨水。 示例 1: 输入: height [0,1,0,2,1,0,1,3,2,1,2,1] 输出: 6 解释: 上面是由数组 [0,1,0,2,1,…

定时器及其简单使用

定时器及其简单使用 文章目录 定时器及其简单使用ARM32单片机定时器定时器原理系统主频与定时时间的关系定时器计时上限预分频器 基于定时器应用配置Timer.cPSC、CAR减1原因 PWM什么是PWM?如何生成PWM?PWM输出使用PWM模式有效电平定时器可以输出几个通道的PWM&…

JUC(二)

1、wait notify Owner 线程发现条件不满足,调用 wait 方法,即可进入 WaitSet 变为 WAITING 状态 BLOCKED 和 WAITING 的线程都处于阻塞状态,不占用 CPU 时间片 BLOCKED 线程会在 Owner 线程释放锁时唤醒 WAITING 线程会在 Owner 线程调用 …

什么是Linux?它与其他操作系统有何区别?

什么是Linux?它与其他操作系统有何区别? 什么是Linux?它与其他操作系统有何区别?摘要引言正文内容了解LinuxLinux与其他操作系统的区别开放性多样性安全性 🤔 QA环节小结 参考资料表格总结总结未来展望 博主 默语带您 …

超高并发下Redis热点数据风险破解

1 介绍 作者是互联网一线研发负责人,所在业务也是业内核心流量来源,经常参与 业务预定、积分竞拍、商品秒杀等工作。 近期参与多场新员工的面试工作,经常就 『超高并发场景下热点数据』 可用性保障与候选人进行讨论。 本文聚焦一些关键点技术进行讨论,并总结一些热点场景…