20240122在WIN10+GTX1080下使用字幕小工具V1.2的使用总结(whisper)

20240122在WIN10+GTX1080下使用字幕小工具V1.2的使用总结
2024/1/22 19:52


结论:这个软件如果是习作,可以打101分,功能都实现了。
如果作为商业软件/共享软件,在易用性等方面,可能就只能有70分了。
【百分制】


可选的改进部分:
0、支持INTEL/AMD/ATI的显卡。并且给NVIDIA的显卡自动安装最新的驱动程序和CUDA版本!【对初学者友好!】
1、待转换的音频/视频目录:【中文路径/长目录】对特殊字符的支持
2、(识别)翻译成:语言可以按照拼音顺序排序。当然汉语/简体中文/普通话是可以放到最前面的!
3、计算精度,只列出来所支持的精度,并给出估计的识别时间!
4、打开输出目录。我第一次识别完成在会后就把 识别结果 这个目录剪切走了。
结果下一次识别的时候找不到 识别结果 这个目录,直接退出了!半小时白花了。
如果找到 识别结果 这个目录,可以直接新建的呀!
H:\BaiduNetdiskDownload\音视频转文字字幕小工具\识别结果
5、由于whisper体积庞大,文件众多,导致程序比较凌乱。实际上,根目录下只需要有这两个目录:whisper和 识别结果。

whisper
识别结果


缘起:为了使用openai的whisper识别小语种【非英语】电影的字幕,决定开始折腾CUDA了!
https://github.com/openai/whisper
https://www.bilibili.com/video/BV1d34y1F7qA
https://www.bilibili.com/video/BV1d34y1F7qA/?p=4&vd_source=4a6b675fa22dfa306da59f67b1f22616


1、待转换的音频/视频目录:c:/temp
测试发现只支持英文+数字目录。
【不要使用中文路径/长目录】


2、调用设备:显卡/CPU
你就找一片NVIDIA的CPU吧。
手头紧可以考虑二手:拼多多/淘宝


3、模型:whisper-large-v3就可以了。
不需要特别选择V2版本。


4、计算精度:
float16  不支持x
int8  支持
int8_float16  不支持x
int8_bfloat16  不支持x
bfloat16  不支持x

int8_float32  支持
int16  不支持x
float32  支持

int8_float32  支持【显存占用大概30%?】

float32  支持【显存占用几乎100%,几乎8GB全部占用了!】


5、版权;
由于内核是OpenAI所开源的【whisper】,收费就呵呵了!^_
不过whisper没有UI界面?
有人花时间整理出来,收点小钱¥也不是那么不可以接受的!
有能力的同学可以适当打赏点吧!


参考资料:
https://blog.csdn.net/weixin_42074867/article/details/90046478
win10 GTX1080配置Python CUDA、CUDNN支持

https://developer.nvidia.com/cuda-toolkit-archive
https://developer.nvidia.com/cuda-toolkit-archive
CUDA Toolkit Archive

https://developer.nvidia.com/cuda-12-0-0-download-archive
CUDA Toolkit 12.0.0 (December 2022), Versioned Online Documentation

安装好就可以运行 音|视频转文字|字幕小工具V1.2【openai的whisper】


百度:WIN10 进入安全模式
https://baijiahao.baidu.com/s?id=1773719082166223864&wfr=spider&for=pc
Win10系统电脑进入安全模式的四种方法,让你轻松应对各种问题

方法一:通过强制关机进入自动修复界面
1.当电脑启动时,在Win10启动logo界面按住电源键强制关机,重复此操作三次。


http://www.baike6.com/b385814.html
电脑win10无法正常开机怎么办


https://www.jb51.net/os/win10/811307.html
win10怎么进安全模式 win10系统8种进安全模式方法

https://www.laomaotao.net/more/2023/0728/11528.html
Win10你的电脑未能启动的有效修复方法


https://www.xitongzhijia.net/xtjc/20230221/279941.html
电脑未正确启动怎么办?六种方法解决!(Win10/Win11通用)


https://www.microsoft.com/zh-cn/software-download/windows10
下载 Windows 10

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/340588.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

makefile 编译动态链接库使用(.so库文件)

makefile 编译动态链接库使用(.so库文件) 动态链接库:不会把代码编译到二进制文件中,而是在运行时才去加载, 好处是程序可以和库文件分离,可以分别发版,然后库文件可以被多处共享 动态链接库 动态&#…

macbookpro怎么恢复出厂设置2024最新恢复方法汇总

可能你的MacBook曾经是高性能的代表,但是现在它正慢慢地逝去了自己的光芒?随着逐年的使用以及文件的添加和程序的安装,你的MacBook可能会开始变得迟缓卡顿,或者失却了以往的光彩。如果你发现你的Mac开始出现这些严重问题&#xff…

牛客周赛 Round 20 解题报告 | 珂学家 | 状压DP/矩阵幂优化 + 前缀和的前缀和

前言 整体评价 这场比赛很特别,是牛客周赛的第20场,后两题难度直线飙升了。 前四题相对简单,E题是道状压题,历来状压题都难,F题压轴难题了,感觉学到了不少。 A. 赝品 先求的最大值 然后统计非最大值的个…

Haar小波下采样模块

论文原址:Haar wavelet downsampling: A simple but effective downsampling module for semantic segmentation - ScienceDirect 原文代码:HWD/HWD.py at main apple1986/HWD (github.com) 介绍 深度卷积神经网络 (DCNN) 通…

CPMS靶场练习

关键:找到文件上传点,分析对方验证的手段 首先查看前端发现没有任何上传的位置,找到网站的后台,通过弱口令admin 123456可以进入 通过查看网站内容发现只有文章列表可以进行文件上传;有两个图片上传点 图片验证很严格…

《WebKit 技术内幕》学习之六(2): CSS解释器和样式布局

2 CSS解释器和规则匹配 在了解了CSS的基本概念之后,下面来理解WebKit如何来解释CSS代码并选择相应的规则。通过介绍WebKit的主要设施帮助理解WebKit的内部工作原理和机制。 2.1 样式的WebKit表示类 在DOM树中,CSS样式可以包含在“style”元素中或者使…

SpringBoot异常处理和单元测试

学习目标 Spring Boot 异常处理Spring Boot 单元测试 1.SpringBoot异常处理 1.1.自定义错误页面 SpringBoot默认的处理异常的机制:SpringBoot 默认的已经提供了一套处理异常的机制。一旦程序中出现了异常 SpringBoot 会向/error 的 url 发送请求。在 springBoot…

移动开发行业——鸿蒙OS NEXT开出繁花

1月18日,华为宣布HarmonyOS NEXT开发者预览版开放申请,根据官方注解,这个版本的鸿蒙系统有个更通俗易懂的名字——“星河版”,也被称为“纯血”鸿蒙。 根据官方解释,之所以取名星河版,寓意鸿蒙OS NEXT就像…

28、web攻防——通用漏洞SQL注入HTTP头XFFCOOKIEPOST请求

文章目录 $_GET:接收get请求,传输少量数据,URL是有长度限制的; $_POST:接收post请求; $_COOKIE:接收cookie,用于身份验证; $_REQUEST:收集通过 GET 、POST和C…

线性代数:矩阵运算(加减、数乘、乘法、幂、除、转置)

目录 加减 数乘 矩阵与矩阵相乘 矩阵的幂 矩阵转置 方阵的行列式 方阵的行列式,证明:|AB| |A| |B| 加减 数乘 矩阵与矩阵相乘 矩阵的幂 矩阵转置 方阵的行列式 方阵的行列式,证明:|AB| |A| |B|

JVM的组成部分(类加载器、运行时数据区、执行引擎、本地库接口)

目录 JVM作用 JVM构成 1.类加载器 类加载子系统: 类加载器的分类: 双亲委派机制: 2.运行时数据区 程序计数器 虚拟机栈 本地方法栈 堆 方法区 3.执行引擎 4.本地库接口 JVM作用 jvm是将字节码文件加载到虚拟机中,…

特征融合篇 | YOLOv8 引入长颈特征融合网络 Giraffe FPN

在本报告中,我们介绍了一种名为DAMO-YOLO的快速而准确的目标检测方法,其性能优于现有的YOLO系列。DAMO-YOLO是在YOLO的基础上通过引入一些新技术而扩展的,这些技术包括神经架构搜索(NAS)、高效的重参数化广义FPN(RepGFPN)、带有AlignedOTA标签分配的轻量级头部以及蒸馏增…

RV1103与FPGA通过MIPI CSI-2实现视频传输,实现网络推流

RV1103与FPGA通过MIPI CSI-2实现视频传输,实现网络推流。 一:图像格式 支持图像格式如下: [0]: NV16 (Y/CbCr 4:2:2) Size: Stepwise 64x64 - 2304x1296 with step 8/8 [1]: NV61 (Y/CrCb 4:2:2) Size: Stepwise 64x64 - 2304x1296 with …

POI及EasyExcel学习笔记

POI及EasyExcel学习笔记 组件、工具 POI-Excel概述 Apache POI 结构: HSSF - 提供读写[Microsoft Excel](https://baike.baidu.com/item/Microsoft Excel)格式档案的功能。XSSF - 提供读写Microsoft Excel OOXML格式档案的功能。HWPF &am…

美团收银餐饮版培训教程

硬件连接方式及介绍: 双屏收银机 收银一体机 双屏收银机连接图 收银一体机连接图 前台打印机 后厨打印机 标签打印机 前台打印机连接图 后厨打印机连接图 其它收银机配件 软件前期设置 1、机器联网 点开桌面的设置,点击更多,点击以太网,最上…

Linux与windows互相传输文件之rzsz命令

文章目录 关于rzsz安装软件使用命令方法一:直接拖拽方法二:直接在终端输入rz 关于rzsz 这个工具用于 windows 机器和远端的 Linux 机器通过 XShell 传输文件 安装完毕之后可以通过拖拽的方式将文件上传过去 首先看一下我们的机器可以使用网络吗&#xff…

QT upd测试

QT upd测试 本次测试将服务器和客户端写在了一个工程下&#xff0c;代码如下 widget.h #ifndef WIDGET_H #define WIDGET_H#include <QWidget> #include<QUdpSocket> #include<QTimer>QT_BEGIN_NAMESPACE namespace Ui { class Widget; } QT_END_NAMESPACE…

C++的流库

1.流的概念 “流”&#xff0c;即“流动”的意思&#xff0c;是物质从一处向另一处流动的过程。在计算机这边通常是指对一种有序连续且具有方向性的数据的抽象描述。 C 中的流一般指两个过程的统一&#xff1a; 信息从外部输入设备&#xff08;键盘&#xff09;向计算机内部…

网页设计-用户体验

Use Cases (用例) 用例是用户如何在网站上执行任务的书面描述&#xff0c;从用户的角度描述了系统响应请求时的行为。每个用例都是用户实现目标的一系列简单的步骤。简言之&#xff0c;用例是一种用于描述系统如何满足用户需求的方法。 用例的好处 1. 明确需求&#xff1a; Use…

【测试入门】测试用例经典设计方法 —— 因果图法

01、因果图设计测试用例的步骤 1、分析需求 阅读需求文档&#xff0c;如果User Case很复杂&#xff0c;尽量将它分解成若干个简单的部分。这样做的好处是&#xff0c;不必在一次处理过程中考虑所有的原因。没有固定的流程说明究竟分解到何种程度才算简单&#xff0c;需要测试…