选择使用whisper.cpp进行语音转文字

需要将一些wav格式的语音文件转成文字(ASR,STT),接到这个任务后,首先上网搜索有没有现成免费的工具或服务可以使用。常用的关键字如“语音转文字 免费 在线”。

搜到的很多野鸡网站,都可以免注册免费提供短时间(一两分钟或几兆)的文件转文字功能,但时间太短无法满足要求。如果在这些网站注册付费使用,不仅花钱,还可能泄露隐私。

正规网站当然也不少,如讯飞、IBM、腾讯等等。但也都不行或者不够。

比如讯飞,个人感觉有欺诈嫌疑:www.iflyrec.com/html/addMachineOrder.html

看它左上角的网页title,是不是【在线】【免费】几个字很吸引你?

还有更具迷惑性的。

当你添加本地文件后,不管文件多大,数量有几个,它会马上启动文件上传,让你误以为它能够无限制的免费帮你进行转换,最差情况,估计也就是让你这种白嫖党多等一会儿。既然免费,也没啥好抱怨的,等就等吧。

不过实际情况是,当所有这些文件上传完成,点击提交后,它就告诉你需要收费啦。当然也不能说它没提醒你,网页右侧的【资费】图标其实早就说明了一切。

它的机翻价格是19.8元/小时,而且还没有免费体验时长。几十个小时就得花个几百块钱,性价比太低了,再见。

但已经上传的文件最后讯飞如何处理,是不是拿去喂给AI训练呢?不得而知。

如果是的话,就是你想白嫖它,而反而被它白嫖了。。。

IBM的服务不错,www.ibm.com/products/speech-to-text

它明确告诉你,每个月有500分钟的免费额度。不过即使是free,也要求你输入信用卡号。

但是本人没有信用卡,也只能byebye了。

然后是腾讯云,语音文件每月有10小时的免费额度。

console.cloud.tencent.com/asr/demonstrate

试用了一下,还可以。另外还有SDK和API两种方式来访问它的服务,也可以选择本地文件或网络文件(又诱导人买你的云存储服务吧?),但这得学它们API文档来写代码,不方便。

目前看来腾讯最靠谱,但根本问题是免费额度太少不够用。

如果另外把百度、阿里等大厂的白嫖资源都用上,一个月也许加起来会有二三十个小时。但这样太麻烦,而且时间限制如悬在头上的利剑,让人不安心。

所以还是放弃buy(白嫖)这条路,改为build。

Github上语音转文字主题下,star最多的是 whisper.cpp。github.com/topics/speech-to-text

它是openAI的whisper开源项目的cpp实现,按照其主页说明,在win10下的WSL Ubuntu ,只要几个步骤就能跑起来,也不要求有gpu。

  1. 1、确保已安装c++编译
  2. 2、下载/克隆 whisper.cpp源码
  3. 3、下载模型,tiny和base识别不太行,至少要small。电脑不太差的都选medium或large吧。

 huggingface.co/ggerganov/whisper.cpp/tree/main 如果不能访问,可以去镜像网站hf-mirror.com/ggerganov/whisper.cpp/tree/main。

4、编译,以small为例,make -j small

5、得到可执行程序main,然后就可以进行转换了。例如 ./main -m models/ggml-small.bin -l zh -f  ../sound/test.wav。

还有很多参数可用,例如输出到各种格式的文件。如果要转换的语音文件多,自己写个脚本批处理即可。

转换后的结果还是需要人工纠错,而且有时会有些稀奇古怪的内容,比如

【请不吝点赞 订阅 转发 打赏支持明镜与点点栏目】【转发 打赏支持明镜与点点栏目】等等

估计是ai的幻觉。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/923030.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

消息称三星正与 OpenAI 洽谈,有望令 Galaxy AI 整合ChatGPT,三星都要和chatgpt合作了,你会使用chatgpt了吗?

还不知道怎么订阅chatgpt4.o和国外app服务的同学,可以看这里:WildCard官方平台订阅chatgpt 11 月 25 日消息,金融分析师 Dan Nystedt 在 X 平台透露称 OpenAI 正在与三星电子洽谈合作计划,讨论将其 ChatGPT 引入三星 Galaxy AI 的…

candence: 常用的一些命令: Move / Mirror / Rotate / Spain / Fix / unFix / Flipdesign

常用的一些命令 一、 Move 移动 一个可移动一个,也可多个 移动器件 二、 Mirror 镜像 Mirror 就是top 和 bottom 层的器件进行相互转换 三、 Rotate 旋转 移动过程中旋转 四、旋转 Spain 不能在移动中旋转 可以一次旋转一个,也可多个 一次旋转…

【深度学习】【RKNN】【C++】模型转化、环境搭建以及模型部署的详细教程

【深度学习】【RKNN】【C】模型转化、环境搭建以及模型部署的详细教程 提示:博主取舍了很多大佬的博文并亲测有效,分享笔记邀大家共同学习讨论 文章目录 【深度学习】【RKNN】【C】模型转化、环境搭建以及模型部署的详细教程前言模型转换--pytorch转rknnpytorch转onnxonnx转rkn…

Hadoop3.3.6集群安装

Hadoop3.3.6 三节点集群安装 准备工作 准备三台机器,大小为4c8g,主节点为 8c16g。并需要保证网络连通性,每台机器都相互ping一下 1、关闭网络防火墙 # 查看网络防火墙状态 sudo systemctl status firewalld # 立即停止 firewalld sudo sy…

计算机网络-GRE(通用路由封装协议)简介

昨天我们学习了VPN的基本概念,虚拟专用网络在当前企业总部与分支间广泛使用。常用的划分方法为基于协议层次有GRE VPN、IPSec VPN、L2TP VPN、PPTP VPN、SSL VPN等。其实我有考虑该怎么讲,因为在IP阶段好像虚拟专用网络讲得不深,在IE的阶段会…

Android 应用测试的各种环境问题记录(Instrumentation测试)

报错记录 failed to configure packages targetSdkVersion(未解决) failed to configure com.demo.test.SettingsActivityTest.testOnCreate_withNullSavedInstanceState: Package targetSdkVersion34 > maxSdkVersion32 java.lang.IllegalArgumentE…

计算机网络复习笔记(湖科大教书匠)

课程链接:【计算机网络微课堂(有字幕无背景音乐版)】 https://www.bilibili.com/video/BV1c4411d7jb/?p61&share_sourcecopy_web&vd_sourcecd12864239c2976e9f2bce4b307393f0 一、基础概念 信息交换方式 电路交换 电话交换机接通…

探索运维新视界,CMDB的3D机房功能深度解析

在数字化转型的浪潮中,数据中心作为企业信息架构的核心,其高效、智能的管理成为了企业竞争力的关键因素之一。3D机房作为这一趋势下的创新产物,正逐步改变着传统机房运维的面貌。本文将结合乐维CMDB,深入探讨3D机房的功能细节、应…

时序论文25|ShapeFormer: 用于多变量时间序列分类的Shapelet Transformer

论文标题:ShapeFormer: Shapelet Transformer for Multivariate Time Series Classification 论文链接:https://arxiv.org/abs/2405.14608 代码链接:https://github.com/xuanmay2701/shapeformer. 前言 本文面向的任务是多元时间序列分类…

Unity 设计模式-状态模式(State Pattern)详解

状态模式(State Pattern) 状态模式(State Pattern) 是一种行为型设计模式,它允许一个对象在其内部状态发生改变时改变其行为。状态模式将与状态相关的行为封装在独立的状态类中,系统在运行时根据状态的变化…

C 语言复习总结记录六

C 语言复习总结记录六 一 指针 指针是什么 ? 指针是内存中一个最小单元的编号,也就是地址 指针通常是指指针变量,用来存放内存地址的变量 指针变量 :通过 &(取地址操作符)取出变量的内存起始地址&…

Elasticsearch中的节点(比如共20个),其中的10个选了一个master,另外10个选了另一个master,怎么办?

大家好,我是锋哥。今天分享关于【Elasticsearch中的节点(比如共20个),其中的10个选了一个master,另外10个选了另一个master,怎么办?】面试题。希望对大家有帮助; Elasticsearch中的节…

YOLOv8改进,YOLOv8引入SE注意机制+C2fCIB模块,二次创新C2f结构

摘要 # 理论介绍 SE 注意力机制是一种提升卷积神经网络(CNN)性能的模块。SE 更关注重要的特征图,增强了网络的表现,同时仅增加了较少的参数。SE 机制包含两个主要步骤: Squeeze (压缩):对所有特征图进行全局平均池化,生成一个通道描述符。Excitation (激励):将通道描述…

IEC61850实现方案和测试-2-UCA

IEC61850实现方案和测试-1作为介绍实现方案和测试的第二篇文章,后续会继续更新,欢迎关注。 第一篇是:IEC61850实现方案和测试-1-CSDN博客 UCA详细测试用例下载: 链接: https://pan.baidu.com/s/1TTMlYRfzKITgrkWwwtcrDg 提取码:…

Ubuntu20.04运行DM-VIO

文章目录 论文信息环境配置编译运行参考 论文信息 论文题目:论文地址:发表期刊:开源代码: 环境配置 将项目中Cmakelists.txt中C 和 opencv版本修改下 C 使用 14 opencv使用4 编译 按照官网即可 cd dm-vio mkdir build cd bui…

ElasticSearch学习篇18_《检索技术核心20讲》LevelDB设计思想

目录 一些常见的设计思想以及基于LSM树的LevelDB是如何利用这些设计思想优化存储、检索效率的。 几种常见的设计思想 索引和数据分离减少磁盘IO读写分离分层思想 LevelDB的设计思想 读写分离设计分层设计与延迟合并LRU缓存加速检索 几种常见设计思想 索引与数据分离 索引…

《用 Python 和 Tkinter 打造惊喜弹窗小应用教程》

在日常使用电脑的过程中,偶尔来点小惊喜总是能让人心情愉悦。今天,我要和大家分享一段有趣的 Python 代码,它借助 Tkinter 库创建一系列随机位置弹出的温馨提示窗口,给人带来意想不到的惊喜效果。下面就让我们一起来深入了解这段代…

JeecgBoot 实现Table列的动态加载

需要在vue文件中引入 render //这个是显示图片的,如果是文字不需要 import { render } from "//utils/common/renderUtils"; 注册table 时 //注册table时添加 getRawDataSource, setColumns const [registerTable, { reload, setProps, setLoading, u…

Python爬虫:获取1688店铺详情的实战指南

在当今这个信息爆炸的时代,数据的价值不言而喻。对于电商行业来说,了解竞争对手的店铺详情、产品信息、价格策略等,对于制定市场策略和优化自身产品至关重要。1688作为中国领先的B2B电子商务平台,拥有海量的商家和商品信息。本文将…

Leecode刷题C语言之网络延迟时间

执行结果:通过 执行用时和内存消耗如下: const int INF 0x3f3f3f3f;// function declaration void displayAdjMatrix(int*, int n); int dijkstra(const int*, const int, const int);int networkDelayTime(int** times, int timesSize, int* timesColSize, int n…