适合企业的TTS文本转语音接口:微软TTS最新模型,发布9种更真实的AI语音

微软对Azure Al语音服务的Personal Voice功能进行了升级,引入了新的零样本学习(zero-shot)的文本到语音(TTS)模型。与初始模型相比,这些新模型提高了合成语音的自然度,并更好地模仿了提示语音中的语音特征。

微软提供了超过400种神经语音,涵盖140多种语言和地区。这些文本到语音(TTS)语音可以快速为应用添加朗读功能,使其设计更加无障碍,或为聊天机器人赋予声音,提供更丰富的对话体验。

Microsoft Azure官网:

还要给大家说的是,目前微软Azure是免费的,但是,试用额度很快就会用完,而且后续企业付费用是没办法开国内合规发票的。

企业如何获取Azure AI语音服务

目前企业需要通过微软官方合作伙伴获取服务,可以合规、稳定地提供企业用户使用Azure AI 语音服务、ChatGPT等的可能,满足国内发票需求。

通过微软官方合作伙伴获取服务,可以合规、稳定地提供企业用户使用ChatGPT的可能,满足国内发票需求,同时也能解决连接不稳定/响应速度慢/并发配额低等问题。

参考链接:
Azure AI 服务 OpenAI 4.0 开通申请

另外有需要可以关注【全云在线】gz号,进OpenAI技术开发交流裙

更新体验:

https://ai.azure.com/explore/speech

新推出的多语言语音包括了针对对话风格的优化,扩展了微软在9种语言及其变种中传达内容的能力:

  • en-US-AvaMultilingualNeural
  • en-US-AndrewMultilingualNeural
  • en-US-EmmaMultilingualNeural
  • en-US-BrianMultilingualNeural
  • De-DE-FlorianMultilingualNeural
  • De-DE-SeraphinaMultilingualNeural
  • Fr-FR-RemyMultilingualNeural
  • Fr-FR-VivienneMultilingualNeural
  • zh-CN-XiaoxiaoMultilingualNeural

特 点

  • 无论在创建基于语音的聊天机器人、语音助手还是对话代理,这些新语音都将确保交互更加逼真、栩栩如生和引人入胜。
  • 针对对话优化的语音在阅读对话和非正式文本时听起来更加自然和引人入胜。
  • 包括像笑声和填充停顿等感叹词,为虚拟对话增添了人性化的气息。

应用场景

1.语音助手:创建个性化的语音助手体验。用户现在可以使用自己的声音,而不是依赖通用的声音,实现真正独特的体验。2.游戏:为玩家提供沉浸式体验,允许他们完全以自己独特的声音扮演角色。语言配音:扩展全球影响力,用演讲者的母语为内容配音,为观众提供无缝目愉悦的体验,无论他们位于何处。3.媒体和娱乐:为故事、有声书、播客、视频等创建易于使用的个人语音,使内容比以往任何时候都更加贴近和沉浸。4.语音翻译:打破语言障碍,改善沟通。允许会话参与者以他们真实的声音被听到,用各种语言进行

使用教程

第一步:注册账号进入官网:

https://azure.microsoft.com/zh-cn/products/ai-services/text-to-speech

点击“免费试用文本转语音”,新用户可获得一年的免费使用额度:

点击“免费开始使用”,这里需要使用微软账号进行登录。

然后进入添加个人信息资料的界面。

手机号验证勾选“其他电话号码”,地区选择中国,然后输入自己的手机号接收验证码即可:

填写完资料后,点击下一步进入信用卡验证,信用卡不会扣费,但要保证里面有1美金才能验证成功。

验证成功后会跳转到Azure主页,点击“转到Azure门户”进入Azure控制台:

第二步:部署语音服务展开左上角菜单栏,打开所有服务:

在所有服务下找到“AI+机器学习”类别,选择语音服务并创建:

创建界面的名称可以随便填,定价层选择“Free F0”,然后点击“审阅并创建”:

继续点击“创建”:

稍等十秒左右语音服务就部署完成了。

第三步:创建语音点击“转到资源”:

继续点击“转到Speech Studio”:

Speech Studio里有很多语音服务,比如“语音转文本”、“语音转字幕”等等,都可以直接使用。

下滑找到文本转语音服务的语音库,点击进入:

在这里我们就可以看到不同国家的各种声音模型,之后Microsoft Azure上新语音模型也会更新到这里。

每个声音模型也都配置了不同的对话场景和情绪,甚至还有各种方言,可以说是目前市面上最全的AI语音库了。

随便点击一个试听一下效果:



,时长00:22

 

效果虽然没法和开头展示的语音效果相媲美,但是已经非常接近真人声音了。

选择好想用的声音模型,点击转到有声内容创作。

把文本内容粘贴到文本框,点击播放按钮就可以进行语音合成。

右侧操作栏可以设置语言、声音模型和说话风格以及气口停顿等等功能,非常齐全。

语音制作完毕之后,点击保存并导出为本地文件,一份文本转语音文件就制作好了。

之后再制作有声读物、小说推文或者是其他有声内容时就可以直接使用Microsoft Azure。无论是声音模型的丰富度还是功能的易用性,Microsoft Azure基本上就相当于语音合成领域的OpenAI。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/723417.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

MySQL数据库的列类型

数值 tinyint 十分小的数据 1个字节 smallint 较小的数据 2个字节 mediumint 中等大小的数据 3个字节 int 标准的整数 4个字节(常用) bigint …

【送模板】5张图,帮你轻松搞懂OKR工作法

OKR是目标与关键结果法的缩写,OKR运用在工作中就是强调对业务进行逻辑思考,找到目标与关键结果之间的因果关系。这种因果关系的是否准确决定我们努力的价值。 OKR是一种高效的目标管理方法。“O”就是object,目标的意思,“kr”就…

考研计组chap4指令系统

目录 一、指令格式 155 13.操作码地址码 2.按照地址码数量 (1)零地址指令 (2)一地址指令 (3)二地址指令 (4)三地址指令 (5)四地址指令 3.指令长度 …

信号与系统概述

信号是消息的表现形式或传送载体,数学上用函数来表示。信号可以分为确定信号和随机信号、连续时间信号和离散时间信号、周期信号和非周期信号、能量信号和功率信号等。模拟信号是幅度连续的连续时间信号,而数字信号是幅度离散的离散时间信号。对于连续时…

【C#】字符串处理器

实现: 统计字符串中单词的数量。查找字符串中最长的单词,并显示其长度。将字符串中的所有单词首字母大写。将字符串中的所有单词反转。 要求: 使用面向对象的方式实现,包括至少一个类(例如 StringProcessor&#xf…

展厅设计要考虑哪些问题

1、树立醒目的标志。 展馆设计说,与众不同可以吸引更多的参观者,让参观者更容易识别和寻找,给没进过展厅的人留下印象,但不要偏离展览目标和商业形象。环顾别人的设计图,后只有一种可能。不知道应该设计什么样的图纸&a…

AI产品组件——TTS产品

语音合成TTS 序列猴子TTS,每个发音人付费标准不同,通过序列猴子开放平台使用。 微软TTS,采用信用卡后付费模式。Speech Studio,付费模式采用统一付费的形式,音效有一款女声效果逼真。 女声:晓晓&#xff…

Python8 使用结巴(jieba)分词并展示词云

Python的结巴(jieba)库是一个中文分词工具,主要用于对中文文本进行分词处理。它可以将输入的中文文本切分成一个个独立的词语,为后续的文本处理、分析、挖掘等任务提供基础支持。结巴库具有以下功能和特点: 中文分词&a…

【免费API推荐】:解锁无限创意,让您的应用更具竞争力(8)

热门高效的免费实用类API是当今开发者们追逐的宝藏。这些API提供了各种热门功能和服务,能够帮助开发者轻松地为应用程序增添实用性和吸引力。无论是人脸识别、自然语言处理、机器学习还是图像处理,这些热门高效的免费API提供了强大的功能和高效的性能&am…

图纸管理的方法、图纸管理软件

图纸管理是一个复杂且关键的过程,它涉及到图纸的创建、存储、共享、修改、审核、存档和检索等多个环节。以下是根据参考文章总结的图纸管理的具体内容和方法: 一、图纸管理的目的 1、确保图纸的准确性:通过规范的管理流程和质量控制措施&…

设计模式——观察者模式(发布/订阅模式)

观察者模式(发布/订阅模式) 是一种行为模式,允许你定义一种订阅机制,可在对象事件发生时通知多个“观察”该对象的其他对象 观察者模式定义了一种一对多的依赖关系,让多个观察者对象同时监听某一主题对象。这个主题对象在状态发生变化时&am…

这么多人追捧的伦敦金陷阱是什么?

我们经常说伦敦金交易是有风险的,整个伦敦金市场中随时可能会出现陷阱,如果投资者不小心掉进这些陷阱,轻则被震荡离场,丢失原来已经盈利的仓位,重则可能还会承受交易本金的亏损。下面我们就来介绍两个在伦敦金交易市场…

基于DMAIC的SMT TX插件撞伤不良改善

在快速发展的电子制造领域,SMT(表面贴装技术)已经成为电子产品组装的核心技术之一。然而,SMT TX插件撞伤不良问题一直是制约生产效率与产品质量的瓶颈。本文将基于DMAIC(定义、测量、分析、改进、控制)方法…

网格布局之网格线编号定位

网格布局之网格线编号定位 欢迎关注:xssy5431 小拾岁月 参考链接:https://mp.weixin.qq.com/s/aOO1G3r1kH-cHDXJGPzK6g 点击查看 名词解释 网格线:用与表示网格开始与结束的线。每条网格线都是从 1 开始,分为 行网格线 与 列网…

Mcgs屏幕脚本程序

目录 1.脚本程序概述1.1 脚本程序简介1.2 脚本程序编辑环境 2.脚本程序语言要素2.1 变量和常量2.2 对象2.3 事件2.4 表达式2.5 联行符2.6 运算符2.7 系统函数 3. 基本语句3.1 赋值语句3.2 条件语句3.3 循环语句3.4 跳出语句3.5 退出语句3.6 注释语句3.7 声明语句3.6 命名规则 1…

小白如何重装系统win10?电脑一键重装系统傻瓜式操作!超详细步骤!

随着电脑的广泛应用,给笔记本/台式电脑系统重装已成为一项基本技能。对于电脑新手而言,如何重装Win10系统,或者更高版本的Win11系统可能是一个巨大的挑战。如果对电脑重装系统刚好有需要了解的小伙伴,不妨看看下面的干货分享。本文…

AI智能写作工具, 免费在线智能创作内容网站

对于需要创作内容的同学,选择一款适合自己的AI写作工具可以极大的提高创作效率。下面小编就来和大家分享几款可以生成高质量原创内容的AI写作工具。 1. Kimi智能助手 Kimi智能助手是一款集成了先进算法的AI工具,它能够理解复杂的语言模式,生…

Mp3文件结构全解析(一)

Mp3文件结构全解析(一) MP3 文件是由帧(frame)构成的,帧是MP3 文件最小的组成单位。MP3的全称应为MPEG1 Layer-3 音频 文件,MPEG(Moving Picture Experts Group) 在汉语中译为活动图像专家组,特指活动影音压缩标准,MPEG 音频文件…

vue3delete请求报403forbidden,前后端解决方式,cookie无效问题

在做开发时,前期已经在Controller类加上CrossOrigin(origins "*"),发送get和post请求都没问题,但遇到delete请求时,又报出跨域问题 一.前端添加proxy代理服务器(未能解决) 在vue.config.js中使…

【实战】Spring Cloud Stream 3.1+整合Kafka

文章目录 前言新版版本优势实战演示增加maven依赖增加applicaiton.yaml配置新增Kafka通道消费者新增发送消息的接口 实战测试postman发送一个正常的消息postman发送异常消息 前言 之前我们已经整合过Spring Cloud Stream 3.0版本与Kafka、RabbitMQ中间件,简直不要太…