🍁 作者:知识浅谈,CSDN签约讲师,CSDN博客专家,华为云云享专家,阿里云专家博主
📌 擅长领域:全栈工程师、爬虫、ACM算法
💒 公众号:知识浅谈
🤞语音转字幕:Whisper模型的功能和使用🤞
🎈使用方法
模型下载
模型下载地址:https://huggingface.co/ggerganov/whisper.cpp
large-v1模型比较大,但是会更准确一些。我这边就用large系列模型好了,虽然显卡不咋地,但是跑这个还是够用了,根据限制自行选择模型,占用内存越大越准确。
模型工具
下载官方提供的客户端,客户端下载可能需要梯子,此处为了节省大家时间,我下载了个最新版本的客户端 点击这里下载
下载后解压
双击WhisperDesktop.exe运行
打开页面,选择模型文件
点击OK,加载模型
然后选择语言,例如我的视频是中文版的,就选择中文
然后选择需要处理的音视频文件,以及选择输出文本样式格式(例如我选择的是带时间线的,每个文本会自带文字信息)和需要保存的文件名称等。
完了以后,点击Transcribe,然后开始执行,稍等一回一会就导出了
然后查看成功导出的文件
🎈功能介绍
Whisper模型是由OpenAI开发的一种先进的自动语音识别系统。
🍮功能:
多语言支持:Whisper模型支持99种不同语言的转录,这意味着无论音频是用哪种语言录制的,模型都能够将其识别并转录为文本。
语音翻译:除了多语言转录外,Whisper模型还能够将识别的文本从原始语言翻译为英语。这使得它成为一个强大的跨语言交流工具。
鲁棒性:Whisper模型对于口音、背景噪音和技术语言具有很好的鲁棒性,这意味着在各种不同的环境和条件下,模型都能够保持较高的识别准确率。
多任务处理能力:模型可以执行包括语言识别、多语言语音转录和英语语音翻译等多种任务,这使得它在实际应用中具有很高的灵活性。
🍮使用:
开源与免费:与DALLE-2和GPT-3等其他OpenAI模型不同,Whisper是一个免费的开源模型。用户可以自由地使用和修改模型,以满足自己的需求。
模型架构:Whisper模型采用了一种简单的端到端方法,利用Transformer模型的编码器-解码器结构。输入的音频被分成30秒一段的模块,然后转换成log-Mel频谱图,再传递给编码器进行计算注意力,最后由解码器预测相应的文本。
训练数据:模型使用了从网络上收集的680,000小时的多语言和多任务监督数据进行训练。这些数据涵盖了多种语言、口音和背景噪音,使得模型能够在各种场景下保持较高的识别准确率。
效果与应用场景:Whisper模型的效果比市面上很多音频转文字的工具都要好,可以广泛应用于语音助手、语音识别和语音翻译等场景。例如,它可以用于将语音转换为文本以便进行编辑或搜索,或者用于实现跨语言交流。
总的来说,Whisper模型是一个功能强大、多任务的自动语音识别系统,其开源免费的特点使得它具有很高的灵活性和可扩展性,适用于各种语音识别和语音翻译等场景。
🍚总结
大功告成,撒花致谢🎆🎇🌟,关注我不迷路,带你起飞带你富。
Writted By 知识浅谈