【pyhton】python如何实现将word等文档中的文字转换成语音

在这里插入图片描述

✨✨ 欢迎大家来到景天科技苑✨✨

🎈🎈 养成好习惯,先赞后看哦~🎈🎈

🏆 作者简介:景天科技苑
🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。
🏆《博客》:Python全栈,PyQt5和Tkinter桌面开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi,flask等框架,云原生K8S,linux,shell脚本等实操经验,网站搭建,数据库等分享。

所属的专栏:python综合应用,基础语法到高阶实战教学
景天的主页:景天科技苑

在这里插入图片描述

文章目录

  • Python中文字转语音
    • 步骤 1: 安装必要的库
    • 步骤 2: 读取Word文档
    • 步骤 3: 使用pyttsx3库将文本转换为音频
      • pyttsx3基本用法
        • 初始化引擎
        • 文本转语音
        • 更改语音属性
      • pyttsx3高级用法
        • 保存语音到文件
        • 实时监听和修改语音属性
        • 支持多语言
        • 错误处理
      • 实际案例
        • 案例1:朗读word文件,并将语音保存到本地
        • 案例2:制作语音提示脚本
      • 扩展功能
        • 结合GUI开发
        • 结合自然语言处理
        • 结合语音识别
    • 总结

Python中文字转语音

在Python中实现文字转语音(Text-to-Speech, TTS)功能,能够广泛应用于多种场景,如语音助手、有声读物、无障碍阅读等。本文将结合具体案例,详细介绍如何在Python中实现文字转语音功能,包括不同的库和方法,以及它们的应用场景和优缺点。

将Word文档转换成音频文件并不是Python直接支持的标准功能,因为Word文档主要包含文本、格式和可能的图片,而音频文件则包含声音数据。但是,你可以通过几个步骤来间接实现这个功能,即首先读取Word文档中的文本,然后使用文本到语音(Text-To-Speech, TTS)技术将文本转换为音频。

这里有一个基本的步骤说明,以及使用Python和一些外部库来实现它的方法:

步骤 1: 安装必要的库

在Python中,实现文字转语音功能通常需要安装一些外部库。
你需要安装python-docx来读取Word文档,以及一个TTS库,如gTTS(使用Google的TTS API)或pyttsx3(一个跨平台的TTS引擎)。

  • python-docx:用来读取Word文档,并转换成文字。
  • pyttsx3:这是一个跨平台的Python库,用于将文本转换为语音。它支持多种语音合成引擎,如Microsoft SAPI 5、Google、Pico TTS等。pyttsx3的优点是简单易用,但它不直接支持暂停、继续和停止功能。
pip install python-docx pyttsx3

步骤 2: 读取Word文档

使用python-docx库来读取Word文档中的文本。

from docx import Document

def read_word_doc(file_path):
    doc = Document(file_path)
    full_text = []
    for para in doc.paragraphs:
        full_text.append(para.text)
    return '\n'.join(full_text)

# 使用示例
text = read_word_doc('测试.docx')
print(text)

步骤 3: 使用pyttsx3库将文本转换为音频

pyttsx3是一个强大的文本到语音(Text-to-Speech, TTS)转换库,它允许开发者将文本转换为语音,且支持离线工作,兼容Python 2和Python 3。本文将详细介绍pyttsx3的安装、基本用法、高级功能,并通过实际案例展示其在实际项目中的应用。

pyttsx3基本用法

初始化引擎

在使用pyttsx3之前,首先需要初始化TTS引擎:

import pyttsx3
engine = pyttsx3.init()
文本转语音

通过say方法添加要转换的文本,并通过runAndWait方法执行转换并等待完成:

engine.say("你好,世界!")
engine.runAndWait()
更改语音属性

pyttsx3允许用户配置语音的多种属性,包括语速、音量和语音类型。

  • 设置语速:通过setProperty方法设置语速,单位是词/分钟(words per minute, wpm)。
  • 设置音量:音量范围是0.0到1.0,表示当前系统音量的比例。
  • 设置语音类型:不同的操作系统可能有不同的语音包可供选择。通过getProperty('voices')方法获取当前可用的语音列表,然后选择一个语音进行设置。
# 设置语速
engine.setProperty('rate', 150)

# 设置音量
engine.setProperty('volume', 0.7)

# 获取语音列表并设置语音
voices = engine.getProperty('voices')
for voice in voices:
    print(f"语音 ID: {voice.id}")
    print(f"语音名称: {voice.name}")
# 假设我们选择第一个语音
engine.setProperty('voice', voices[0].id)

engine.say("这是更改后的语音、语速和音量。")
engine.runAndWait()

pyttsx3高级用法

保存语音到文件

pyttsx3不仅可以将文本转换为语音并实时播放,还可以将语音保存到文件中。通过save_to_file方法实现:

text = '你好,我是景天'
filename = './output.wav'
engine.save_to_file(text, filename)
engine.runAndWait()
实时监听和修改语音属性

虽然pyttsx3没有直接提供实时监听语音输出的API,但可以在朗读过程中根据条件动态调整语速、音量等属性。然而,需要注意的是,这种修改不会立即应用于当前正在播放的语音,而是会影响后续的语音输出。

支持多语言

pyttsx3支持多语言,但这取决于安装的语音包和操作系统的支持。在不同的操作系统上,可以通过选择不同的语音包来实现多语言支持。

错误处理

在实际应用中,应该添加错误处理机制来应对可能的异常情况,比如无法加载语音包、语音属性设置失败等。

实际案例

案例1:朗读word文件,并将语音保存到本地

假设我们有一个文本文件测试.docx,我们想要使用pyttsx3来朗读这个文件的内容。以下是实现步骤:


#将word文档转换为文字
from docx import Document


def read_word_doc(file_path):
    doc = Document(file_path)
    full_text = []
    for para in doc.paragraphs:
        full_text.append(para.text)
    return '\n'.join(full_text)


# 使用示例
text = read_word_doc('测试.docx')
print(text)


#文字转语音
import pyttsx3


def text_to_speech_pyttsx3(text):
    # 在使用pyttsx3之前,首先需要初始化TTS引擎:
    engine = pyttsx3.init()

    #打印语速,单位是词/分钟.默认是200
    rate = engine.getProperty("rate")
    print("语速",rate)

    #设置语速
    engine.setProperty('rate',190)

    #设置音量,音量范围是0.0到1.0,表示当前系统音量的比例。默认是1
    print("当前音量",engine.getProperty('volume'))
    # engine.setProperty('volume', 0.7)

    # 获取语音列表并设置语音
    #不同的操作系统可能有不同的语音包可供选择。通过getProperty('voices')方法获取当前可用的语音列表,然后选择一个语音进行设置。
    voices = engine.getProperty('voices')
    for voice in voices:
        print(f"语音 ID: {voice.id}")
        print(f"语音名称: {voice.name}")

    #通过say方法添加要转换的文本,
    engine.say(text)


    #将语音保存为MP3文件
    engine.save_to_file(text,"test.mp3")
    # 并通过runAndWait方法执行转换并等待完成:
    engine.runAndWait()



# 使用示例
text_to_speech_pyttsx3(text)

我们的操作系统支持两种语音类型
在这里插入图片描述
看下生成的mp3文件
在这里插入图片描述
能正常播放
在这里插入图片描述

案例2:制作语音提示脚本

在自动化脚本或系统管理中,经常需要通过语音来提供用户提示。使用pyttsx3可以轻松实现这一功能。例如,一个自动备份脚本在完成备份后,可以通过语音通知用户:

import pyttsx3

def notify_user(message):
    engine = pyttsx3.init()
    engine.say(message)
    engine.runAndWait()

# 假设在某个自动备份函数的最后调用
notify_user("备份已完成,请放心使用。")

扩展功能

结合GUI开发

pyttsx3可以与其他GUI开发库(如Tkinter或PyQt)结合使用,开发具有图形界面的TTS应用。用户可以通过图形界面选择文本、设置语音属性并启动朗读过程。

结合自然语言处理

pyttsx3也可以与自然语言处理库(如NLTK或spaCy)结合使用,实现更复杂的文本处理和分析。例如,可以对文本进行分词、词性标注、命名实体识别等处理,然后将处理后的文本转换为语音输出。

结合语音识别

通过结合语音识别库,可以实现完整的语音交互系统。用户可以通过语音输入指令,系统解析指令并执行相应操作,同时通过pyttsx3将结果转换为语音输出反馈给用户。

总结

pyttsx3是一个功能强大且易于使用的文本到语音转换库,适用于各种需要语音交互的场合。通过本文的介绍,相信读者已经对pyttsx3有了更深入的了解,并能够在实际项目中灵活运用。无论是为应用程序添加语音交互功能,还是开发语音助手、自动化脚本等,pyttsx3都是一个非常实用的工具。希望本文能够帮助读者快速上手pyttsx3,并在自己的项目中实现语音功能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/872827.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

数据结构基本知识

一、什么是数据结构 1.1、组织存储数据 ---------》内存(存储) 1.2、研究目的 如何存储数据(变量,数组....)程序数据结构算法 1.3、常见保存数据的方法 数组:保存自己的数据指针:是间接访问已经存在的…

移远通信高端5G智能模组SG560D-NA率先通过PTCRB认证

近日,移远通信宣布,其基于高通QCM6490平台打造的高端5G智能模组SG560D-NA顺利通过PTCRB认证。 在此之前,该模组还获得了美国FCC和加拿大IC认证,这意味着,其已完全满足北美地区的相关标准和规定,能够支持相关…

【AI大模型应用开发】2.1 Function Calling连接外部世界 - 入门与实战(1)

Function Calling是大模型连接外部世界的通道,目前出现的插件(Plugins )、OpenAI的Actions、各个大模型平台中出现的tools工具集,其实都是Function Calling的范畴。时下大火的OpenAI的GPTs,原理就是使用了Function Cal…

C++ | Leetcode C++题解之第355题设计推特

题目&#xff1a; 题解&#xff1a; class Twitter {struct Node {// 哈希表存储关注人的 Idunordered_set<int> followee;// 用链表存储 tweetIdlist<int> tweet;};// getNewsFeed 检索的推文的上限以及 tweetId 的时间戳int recentMax, time;// tweetId 对应发送…

828华为云征文 | 华为云Flexus X实例上实现Docker容器的实时监控与可视化分析

Docker容器监控之 CAdvisorInfluxDBGranfana 需要了解 本文章主要讲述在 华为云Flexus X 实例上搭建开源的容器管理平台&#xff0c;使用的Web UI界面来简化和优化容器及集群的管理和监控选择合适的云服务器&#xff1a; 本文采用的是 华为云服务器 Flexus X 实例&#xff08;…

Prefetch文件分析

目录 介绍步骤 介绍 Prefetch&#xff08;预读取&#xff09;&#xff0c;从Windows XP开始引入&#xff0c;用来加速应用程序启动过程。Prefetch包含可执行文件的名称、文件时间戳、运行次数、上次执行时间、Hash等。Win7上记录最近128个可执行文件的信息&#xff0c;Win8-10…

正点原子STM32F103+ESP8266+DS18B20+DHT11连接阿里云

文章目录 MQTT协议1. 基础知识2. 报文形式3. 连接报文4. 心跳报文5. 订阅报文5.1. 订阅主题报文SUBSCRIBE5.2. 订阅确认SUBACK5.3. 取消订阅UNSUBSCRIBE5.4. 取消订阅确认UNSUBACK 6. 发布报文6.1. 发布消息PUBLISH6.2. 发布确认PUBACK 7. 阿里云账号创建8. 网络调试助手接入阿…

Java | Leetcode Java题解之第389题找不同

题目&#xff1a; 题解&#xff1a; class Solution {public char findTheDifference(String s, String t) {int ret 0;for (int i 0; i < s.length(); i) {ret ^ s.charAt(i);}for (int i 0; i < t.length(); i) {ret ^ t.charAt(i);}return (char) ret;} }

Matplotlib 颜色设置详解

在使用matplotlib进行颜色绘制的时候,如绘制图表、背景色或者对文字设置的时候都可以配置颜色, 以下说明主流的三种颜色使用方法 颜色名称 可以是直接使用颜色名称的字符串对color进行赋值,包括可以使用首字母缩写或者完整拼写的形式,以下为部分颜色的书写形式 缩写版 • …

Spring Boot 多数据源配置(JPA)

目录 前言 前置环境 pom yml Entity Dao Config Controller 演示 前言 一般一个系统至少有一个数据源&#xff0c;用来持久化业务数据以及查询。单个数据源的系统很常见&#xff0c;在 Spring Boot 框架下配置也很简单。在约定大于配置这个思想下&#xff0c;只需要在…

递推,CF 353D - Queue

目录 一、题目 1、题目描述 2、输入输出 2.1输入 2.2输出 3、原题链接 二、解题报告 1、思路分析 2、复杂度 3、代码详解 一、题目 1、题目描述 2、输入输出 2.1输入 2.2输出 3、原题链接 353D - Queue 二、解题报告 1、思路分析 手玩一下&#xff0c;我们发现相…

[数据集][目标检测]人脸口罩佩戴目标检测数据集VOC+YOLO格式8068张3类别

数据集格式&#xff1a;Pascal VOC格式YOLO格式(不包含分割路径的txt文件&#xff0c;仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数)&#xff1a;8068 标注数量(xml文件个数)&#xff1a;8068 标注数量(txt文件个数)&#xff1a;8068 标注…

uniapp写的一个年月日时分秒时间选择功能

代码: <template><view><picker mode"multiSelector" :value"multiIndex" :range"multiRange" change"onMultiChange"><view class"picker">当前选择&#xff1a;{{ formattedDateTime }}</vie…

VisualStudio环境搭建C++

Visual Studio环境搭建 说明 C程序编写中&#xff0c;经常需要链接头文件(.h/.hpp)和源文件(.c/.cpp)。这样的好处是&#xff1a;控制主文件的篇幅&#xff0c;让代码架构更加清晰。一般来说头文件里放的是类的申明&#xff0c;函数的申明&#xff0c;全局变量的定义等等。源…

大路灯护眼灯有必要吗安全吗?性价比高落地护眼灯推荐

大路灯护眼灯有必要吗安全吗&#xff1f;近几年来&#xff0c;随着生活节奏的加快&#xff0c;目前青少年的近视率呈现一个直线上升的趋势&#xff0c;其中占比达到了70%以上&#xff0c;并且最令人意外的是小学生竟然也占着比较大的比重&#xff0c;这一系列的数据不仅表明着近…

MySQL(CRUD)

MySQL mysql -u root -ply MySQL的三层结构 1.安装MySQL数据库本质就是在主机安装一个数据库管理系统(DBMS),这个管理程序可以管理多个数据库. 2.一个数据库中可以创建多个表,以保存数据 SQL语句分类 1.DDL:数据定义语句[create 表,库] 2.DML:数据操作语句[增加insert,修改…

【Java】基于JWT+Token实现完整登入功能(实操)

Java系列文章目录 补充内容 Windows通过SSH连接Linux 第一章 Linux基本命令的学习与Linux历史 文章目录 Java系列文章目录一、前言二、学习内容&#xff1a;三、问题描述四、解决方案&#xff1a;4.1 认识依赖4.2 使用JWT4.3 登入实现4.4 配置拦截器4.5 获取数据 五、总结&…

EMC技术

目录 EMC 天线效应 公式 措施 EMC测试 展频技术 如何展频 OTA测试 EMC 三大要素&#xff1a;干扰源、传输介质、敏感设备。 EMI&#xff1a;Electromagnetic Interference&#xff0c;电磁干扰。 EMS&#xff1a;Electro Magnetic Susceptibility&#xff0c;电磁抗扰…

二百五十九、Java——采集Kafka数据,解析成一条条数据,写入另一Kafka中(一般JSON)

一、目的 由于部分数据类型频率为1s&#xff0c;从而数据规模特别大&#xff0c;因此完整的JSON放在Hive中解析起来&#xff0c;尤其是在单机环境下&#xff0c;效率特别慢&#xff0c;无法满足业务需求。 而Flume的拦截器并不能很好的转换数据&#xff0c;因为只能采用Java方…

JVM系列(十) -垃圾收集器介绍

一、摘要 在之前的几篇文章中,我们介绍了 JVM 内部布局、对象的创建过程、运行期的相关优化手段以及垃圾对象的回收算法等相关知识。 今天通过这篇文章,结合之前的知识,我们一起来了解一下 JVM 中的垃圾收集器。 二、垃圾收集器 如果说收集算法是内存回收的方法论,那么…