【python ASR】win11-从0到1使用funasr实现本地离线音频转文本

文章目录

  • 前言
  • 一、前提条件
    • 安装环境
      • Python 安装
      • 安装依赖,使用工业预训练模型
      • 最后安装 - torch
        • 1. 安装前查看显卡支持的最高CUDA的版本,以便下载`torch `对应的版本的安装包。torch 中的CUDA版本要低于显卡最高的CUDA版本。
        • 2. 前往网站下载[Pytorch](https://pytorch.org/get-started/locally/)
  • 二、使用步骤
  • 总结


前言

python本地离线跑模型,需要下载许多依赖以及依赖版本都要互相对应。本文总结从0到1到运行funasr的过程。希望帮助友友们,能够快速上手,避免浪费时间在环境和依赖版本的校对上。


一、前提条件

安装环境

仓库

可以看到一些前提条件
python>=3.8
torch>=1.13
torchaudio

Python 安装

3.8 比较旧了,这里我取中间,安装 Python3.11

  • 下载地址python 3.11
  • 详细步骤:参考保姆教程

安装依赖,使用工业预训练模型

pip3 install -U modelscope huggingface

最后安装 - torch

1. 安装前查看显卡支持的最高CUDA的版本,以便下载torch 对应的版本的安装包。torch 中的CUDA版本要低于显卡最高的CUDA版本。
nvidia-smi.exe

在这里插入图片描述
如果你发现你的CUDA是10.1或者11以下比较旧的,建议升级下显卡驱动就可以了。

2. 前往网站下载Pytorch

由于我最高支持12.6
所以我这里下载12.4

pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124

在这里插入图片描述


如果你像下面被限速了在这里插入图片描述
科学就行,最好重新打开终端。
在这里插入图片描述

二、使用步骤

from funasr import AutoModel
model = AutoModel(model="paraformer-zh",  vad_model="fsmn-vad", punc_model="ct-punc" )
res = model.generate(input="demo.mp3", 
            batch_size_s=300, 
            hotword='魔搭')
print(res)

源音频URL对比

[{'key': 'demo', 'text': '是有哪些学校的GPA特别难拿?行,我跟大家盘一盘吧,也刚好避一个坑。那第一个说一说BU吧,它处于波士顿的核心地带,常年都会在这个final最难的几所美国大学的排行榜上榜上有名。还有呢,就是像这个MIT申请的时候,难度也就特别高,考试难度拿GP的难度也非常高。还有呢就是像普林斯顿,虽然说很多藤校会有GPA inflation,但是呢普林斯顿在这一点上卡的很严严,我们 的GPA一点活路都不留。还有呢就是像普渡大学工科相关的专业,学起来难度也比较大。还有就是哈维姆德,它其实是一个科学和工程专业的强校,录取难度也很高,读下来拿高GP的难度也很高。', 'timestamp': [[130, 310], [310, 430], [430, 670], [730, 830], [830, 950], [950, 1070], [1070, 1190], [1190, 1550], [1550, 1630], [1630, 1730], [1730, 1970], [2450, 2690], [2690, 2810], [2810, 2930], [2930, 3050], [3050, 3130], [3130, 3290], [3290, 3410], [3410, 3590], [3590, 3710], [3710, 3830], [3830, 3950], [3950, 4070], [4070, 4190], [4190, 4310], [4310, 4410], [4410, 4650], [4650, 4770], [4770, 4890], [4890, 5010], [5010, 5210], [5210, 5310], [5310, 5430], [5430, 5610], [5610, 5790], [5790, 6210], [6210, 6450], [6510, 6690], [6690, 6930], [6930, 7050], [7050, 7170], [7170, 7290], [7290, 7430], [7430, 7510], [7510, 7710], [7710, 7870], [7870, 8070], [8070, 8290], [8290, 8530], [8550, 8650], [8650, 8830], [8830, 9070], [9090, 9190], [9190, 9290], [9290, 9490], [9490, 9970], [9970, 10210], [10210, 10450], [10470, 10630], [10630, 10850], [10850, 10990], [10990, 11190], [11190, 11350], [11350, 11470], [11470, 11610], [11610, 11710], [11710, 11890], [11890, 12130], [12130, 12330], [12330, 12490], [12490, 12610], [12610, 12790], [12790, 13030], [13090, 13170], [13170, 13330], [13330, 13450], [13450, 13570], [13570, 13650], [13650, 13850], [13850, 13990], [13990, 14110], [14110, 14230], [14230, 14950], [14950, 15070], [15070, 15210], [15210, 15310], [15310, 15430], [15430, 15550], [15550, 15670], [15670, 15770], [15770, 15910], [15910, 16010], [16010, 16129], [16129, 16370], [16510, 16610], [16610, 16810], [16810, 17030], [17030, 17150], [17150, 17350], [17350, 17450], [17450, 17670], [17670, 17790], [17790, 17890], [17890, 18010], [18010, 18210], [18210, 18310], [18310, 18550], [18550, 18730], [18730, 18850], [18850, 19030], [19030, 19150], [19150, 19270], [19270, 19350], [19350, 19530], [19530, 19630], [19630, 19770], [19770, 19930], [19930, 20130], [20130, 20290], [20290, 20470], [20470, 20710], [20750, 20890], [20890, 21090], [21090, 21250], [21250, 21490], [21630, 21790], [21790, 22030], [22150, 22530], [22530, 23170], [23250, 23410], [23410, 23570], [23570, 23710], [23710, 23810], [23810, 23990], [23990, 24170], [24170, 24410], [24490, 24730], [24790, 24950], [24950, 25070], [25070, 25310], [25310, 25510], [25510, 25610], [25610, 25730], [25730, 25850], [25850, 26090], [26230, 26390], [26390, 26470], [26470, 26570], [26570, 26650], [26650, 27070], [27070, 27170], [27170, 27350], [27350, 27470], [27470, 27650], [27650, 27770], [27770, 27850], [27850, 28090], [28210, 28310], [28310, 28490], [28490, 28610], [28610, 28730], [28730, 28810], [28810, 29050], [29050, 29210], [29210, 29410], [29410, 29570], [29570, 29810], [29930, 30050], [30050, 30250], [30250, 30470], [30470, 30650], [30650, 30790], [30790, 30890], [30890, 31130], [31150, 31310], [31310, 31430], [31430, 31570], [31570, 31730], [31730, 31850], [31850, 31970], [31970, 32070], [32070, 32189], [32189, 32430], [32470, 32549], [32549, 32730], [32730, 32830], [32830, 32910], [32910, 33030], [33030, 33210], [33210, 33390], [33390, 33630], [33770, 33910], [33910, 34050], [34050, 34230], [34230, 34330], [34330, 34410], [34410, 34610], [34610, 34830], [34830, 35010], [35010, 35230], [35230, 35430], [35430, 35670], [35710, 35850], [35850, 36030], [36030, 36170], [36170, 36410], [36450, 36690], [36950, 37050], [37050, 37230], [37230, 37350], [37350, 37470], [37470, 37650], [37650, 37770], [37770, 38010], [38070, 38190], [38190, 38310], [38310, 38490], [38490, 38610], [38610, 38810], [38810, 39090], [39090, 39210], [39210, 39310], [39310, 39410], [39410, 39590], [39590, 39710], [39710, 40015]]}]

总结

以上是使用Python跑 funasr 模型的过程。
总的来说就是 torch安装需要对应你的显卡版本,要小于你的显卡CUDA最大支持版本。
后续会记录Python爬取抖音主页的数据,拿到点赞量及无水印视频等。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/906652.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

AI驱动无人驾驶:安全与效率能否兼得?

内容概要 如今,人工智能正以其神奇的魔力驱动着无人驾驶的浪潮,带来了无数令人兴奋的可能性。这一领域的最新动态显示,AI技术在车辆的决策过程和实时数据分析中发挥着重要作用,帮助车辆更聪明地应对复杂的交通环境。通过实时监测…

从头开始学PHP之面向对象

首先介绍下最近情况,因为最近入职了且通勤距离较远,导致精力不够了,而且我发现,人一旦上了班,下班之后就不想再进行任何脑力劳动了(对大部分牛马来说,精英除外)。 话不多说进入今天的…

Systemd:现代 Linux 系统服务管理的核心

Systemd:现代 Linux 系统服务管理的核心 引言 Systemd 是一种现代的系统和服务管理器,用于在 Linux 系统启动时初始化用户空间,并通过服务管理和资源控制实现系统的自动化管理。自发布以来,Systemd 已逐渐取代传统的 SysVinit 和…

Linux初阶——线程(Part3):POSIX 信号量 CP 模型变体

一、什么是 POSIX 信号量 信号量本质就是一个统计资源数量的计数器。​​​​​​​ 1、PV 操作 pv操作就是一种让信号量变化的操作。其中 P 操作可以让信号量减 1(如果信号量大于 0),V 操作可以让信号量加 1. 2、信号量类型——sem_t 3…

《女巫攻击:潜伏在网络背后的隐秘威胁与防御策略》

目录 引言 一、基本概念 二、攻击机制 三、Sybil攻击类型 1、直接通信 2、间接通信 3、伪造身份 4、盗用身份 5、同时攻击 6、非同时攻击 四、攻击影响 五、防御措施 总结 引言 随着区块链技术和去中心化网络的迅速发展,网络安全问题也愈发引起关注。其…

Mybatis-plus入门教程

注意版本 jdk 18 springboot 3.1.0 mybatis 3.0.3 mybatisplus 3.5.5 快速入门 构建模块 导入依赖 <properties><maven.compiler.source>18</maven.compiler.source><maven.compiler.target>18</maven.compiler.target><project.build…

插件式模块化软件框架的思想图解一(框架篇)

插件式模块化软件框架的思想图解一&#xff08;框架篇&#xff09; Chapter1 插件式模块化软件框架的思想图解一&#xff08;框架篇&#xff09;一、前述二、模块化原则1、高度独立2、接口规范 三、从管理需求出发四、框架雏形五、接口引用规定六、子模块与代码模板七、把优秀当…

用ChatGPT-o1搞定论文写作!完整的8步指南

学境思源&#xff0c;一键生成论文初稿&#xff1a; AcademicIdeas - 学境思源AI论文写作 使用ChatGPT辅助论文写作可以显著提升效率和质量&#xff0c;关键在于正确的方法和对学术规范的遵守。以下将详细说明完整步骤&#xff0c;并提供ChatGPT的具体操作指南。 1. 确定研究…

LabVIEW继电器视觉检测系统

随着制造业的自动化与高精度要求不断提升&#xff0c;传统的人工检测方法逐渐难以满足高效和高精度的需求。特别是在航空航天、医疗设备等高端领域&#xff0c;密封继电器推动杆部件的质量直接影响到设备的性能与可靠性。LabVIEW自动化视觉检测系统&#xff0c;能对推动杆部件进…

SYN590RH

一般描述 SYN590RH是SYNOXO全新开发设计的一款宽电压范围&#xff0c;低功耗&#xff0c;高性能&#xff0c;无需外置AGC电容&#xff0c;灵敏度达到典型-110 dBm,400MHz~450MHz频率范围应用的单芯片ASK或00 K射频接收器。 SYN590RH是一款典型的即插即用型单片高…

网络编程_day6

目录 【0】复习 并发服务器实现思路梳理 多进程 多线程 IO多路复用select 【1】setsockopt&#xff1a;设置套接字属性 socket属性 设置地址重用 【2】超时检测 必要性 超时检测的设置方法 1. 通过函数自带的参数设置 2. 通过设置套接字属性进行设置 3. alarm函数与sigaction函…

Python Matplotlib:基本图表绘制指南

Python Matplotlib&#xff1a;基本图表绘制指南 Matplotlib 是 Python 中一个非常流行的绘图库&#xff0c;它以简单易用和功能丰富而闻名&#xff0c;适合各种场景的数据可视化需求。在数据分析和数据科学领域&#xff0c;Matplotlib 是我们展示数据的有力工具。本文将详细讲…

在VS中安装chatGPT

2、在VSCode中打开插件窗口 3、输入ChatGPT 4、这里有个ChatGPT中文版&#xff0c;就它了 5、安装 6、这时候侧边栏多了一个chatGPT分页图标&#xff0c;点击它 7、打个招呼 8、好像不行 9、看一下细节描述 10、根据要求按下按下快捷键 Ctrl Shift P 11、切换成国内模式 12、…

使用 ADB 在某个特定时间点点击 Android 设备上的某个按钮

前提条件 安装 ADB&#xff1a;确保你已经在计算机上安装了 Android SDK&#xff08;或单独的 ADB&#xff09;。并将其添加到系统环境变量中&#xff0c;以便你可以在命令行中运行 adb。 USB调试&#xff1a;确保 Android 设备已启用 USB 调试模式。这可以在设备的“设置” -…

一文了解Linux内核I2C子系统,驱动苹果MFI加密芯片

版本 日期 作者 变更表述 1.0 2024/10/27 于忠军 文档创建 背景&#xff1a;由于苹果有一套MFI IAP2的蓝牙私有协议&#xff0c;这个协议是基于BR/EDR的RFCOMM自定义UUID来实现IAP2协议的通信&#xff0c;中间会牵扯到苹果加密芯片的I2C读取&#xff0c;所以我们借此机…

Windows 部署非安装版Redis

1.下载Redis https://github.com/microsoftarchive/redis/releases 选择下载zip包&#xff0c;如Redis-x64-3.0.504.zip&#xff0c;并解压 2.启动非安装版redis服务 进入到redis目录&#xff0c;打开cmd 执行命令 redis-server.exe redis.windows.conf 3.登录redis客户端…

多个玩家在线游戏

这张图片列出了多人游戏的两种主要网络架构类型&#xff1a; 1. Peer-to-Peer (P2P)&#xff1a; 点对点网络&#xff0c;其中每个玩家的游戏客户端直接与其他玩家的游戏客户端通信。这种架构通常用于小型或中型规模的多人游戏。 2. Client-Server&#xff1a; 客户端-服务器…

JavaIO流操作

目录 简介 字节输入流 获取字节输入流 读 关闭输入流 字节输出流 获取字节输出流 写 换行符 刷新 关闭输出流 字符流输入流 获取字符输入流 读 关闭输入流 字符输出流 获取字符输出流 写 换行符 刷新 关闭输出流 简介 IO流分为两大派系&#xff1a; …

并查集与LRUCache(Java数据结构)

前言&#xff1a; 学习过二叉树之后就应该知道了如何构建一颗二叉树&#xff0c;双亲结点和孩子节点的关系&#xff0c;甚至可以放在顺序表中去构建一棵二叉树&#xff01; 接下来我们要以另一种方式去组织一棵树&#xff1a; 如何表示一棵树之间的关系&#xff1f;(这棵…

Nature Communications|基于深度学习的HE染色组织向特殊染色的转换

工作速览 病理学是通过视觉检查组织切片来进行的&#xff0c;这些切片通常用组织化学染色法染色。虽然苏木精和伊红&#xff08;H&E&#xff09;染色最为常用&#xff0c;但特殊染色可以为不同的组织成分提供额外的对比度。 **在这里&#xff0c;作者展示了从H&E染色…