文字转语音TTS在线使用经验
文字转语音TTS在线使用经验
2024-04-15 ,今天测试了一下微软 Azure TTS 的新语音引擎,主要测试了英语和中文。
这次 MicroSoft 一共推出了 9 款包括:
美式英语 - en-US-AvaMultilingualNeural 女性
美式英语 - en-US-AndrewMultilingualNeural 男性
美式英语 - en-US-EmmaMultilingualNeural 年轻女性
美式英语 - en-US-BrianMultilingualNeural
德语 - De-DE-FlorianMultilingualNeural
德语 - De-DE-SeraphinaMultilingualNeural
法语 - Fr-FR-RemyMultilingualNeural
法语 - Fr-FR-VivienneMultilingualNeural
中文 - zh-CN-XiaoxiaoMultiligualNeural 。
更多官方消息来源:https://learn.microsoft.com/en-gb/azure/ai-services/speech-service/index-text-to-speech。
很可惜,中文只推出了一个女性的声音。效果可以说是非常好,长时间听也不会有“机械式发音”的那种让人方案的情绪。
我转换了大约 30 多分钟的中文文字音频,觉得其他的语音角色都不需要再选择了,用只用 zh-CN-XiaoxiaoMultiligualNeural 就可以了。
周末花了一点时间把最新版的 TTS 效果集成到了一个在线的工具中:
网址: jcjc.CuoBieZi.net/sitemap/audio/tts
TTS 文本转语音效果截图
我用下面的文字做测试:
如果你在山里经常走捷径,很可能走着走着就会发现没路可走了。
很多时候捷径走着走着就走成了绝路、死路,你不得不重新折返,归零重来。
最关键的是找到一条能长期积累的路。
试听的效果如下:
jcjc-tts-2024_04_15T14_22_49
(视频正在审核中。)
00:30未知来源
这是一段长达 30 秒的视频,听起来的效果,耳朵很舒服,没有那种机械、生硬和维和的感觉。
如果对语音有更高的品质要求,就需要使用MSTTS 的 SSML 语音合成的方法了。下一步准备把:多音字的支持、音色、音调的支持也集成进来。
目前默认的输出格式是:“audio-16khz-32kbitrate-mono-mp3” ,为了节省空间,选择了几乎是效果较差的一个标准。效果最好的是:44.1kHz 标准的,比如:“audio-48khz-192kbitrate-mono-mp3”。
这里有一份权威的参考:
https://learn.microsoft.com/en-us/javascript/api/microsoft-cognitiveservices-speech-sdk/speechsynthesisoutputformat?view=azure-node-latest
文本转语音,如果是文章、短文类的阅读,效果的提升、自定义比较容易实现。如果是小说中人物的对话,这里面感觉有很多可以优化的点。
准备下一篇文章详细聊一下这方面的改进工作。