神器 | 文本转语音，直接可以合成多人多风格音频了！-阿里云开发者社区

神器 | 文本转语音，直接可以合成多人多风格音频了！

2023-08-09 325

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 为了适应更多的音频使用场景和需求，近期我们将文本转语音服务进行了升级，全新的功能将成为你配音工具的不二之选。

为了适应更多的音频使用场景和需求，近期我们将文本转语音服务进行了升级，全新的功能将成为你配音工具的不二之选。

“善变”的笑笑

现在，笑笑的语音风格更多了，目前已有：正式叙述,热情友好,热情轻松,轻松随意,沉着冷静,欢快高音,哭泣呜咽,生气愤怒,紧张不安,不悦轻蔑,严肃命令,温暖亲切(高音),温和礼貌(低音),优美伤感。

有没有被这庞大的语音风格群体所吓到呢？用简单的话来说——笑笑几乎能发出我们日常能接触到的所有语音风格。

有了这些说话风格，我们就能随心所欲地合成各种类型的音频了，包括且不限于：新闻播报、自媒体配音、微课配音、故事阅读、虚拟主播。

相信，在你的手上，还能玩出更多新花样。

新的播讲人——云叶

这是一位专业讲故事的机器人，但它讲故事的风格可能和你印象中的故事有点区别，它使用的是说书人的说话风格，可以试听下面的音频。具体用不用得上，就自己决定喽。

多播讲人多风格合成

或许，我们的文本转语音工具是目前能实现此需求的最简单的。只需要把文本输入进去，给不同的文本选择不同的发言风格，就能生成一部广播剧！

什么叫多播讲人多风格？

曾经，我们想在一个音频中实现多个机器人发音或者同一个机器人不同语音，正常的操作应该是：分成段多次合成，再用音频剪辑工具把多段音频合成。

而如今，有了我们的文本转语音工具，你只需要合成一次，就能把不把播讲人及不同风格的发音合成到一个音频中。

如何实现多播讲人多风格？

新版的界面，已经把播讲人和风格放置在了文本框的前面，表示这一行将使用前面所选定的播讲人和风格。

细心的你，一定能找到增加一行这个按钮，点一下，就能在原来的基础上增加一行，在这一行中，你能单独设置播讲人和风格。

那么综合利用起来，你就能制作如下图所示的音频内容，图片后有音频可以试听。

免费体验

说得好听，不如上手体验。

新版增加这么多功能，还是给了大家免费体验的机会，每个微信账号每天能够免费使用本工具9次（每个体验码能体验合成3次，每个微信号每天最多能获得3个体验码）。

免费体验可以使用上面所述的所有功能，与付费使用完全相同。唯一有限制的是：免费体验每次最大字数不能超过500字（后期可能还会再调小）。

付费使用

为了大家能够更长久地使用本工具，我们还是制作了付费功能，相比市面上其他语音合成工具，相信已经便宜得令人发指了。

基本情况

付费标准是：每100个字收费0.1元，不足100按100计数。

付费合成文字最大长度：2000。

换句话说，付费合成每次最少支付0.10元，最多支付2.00元。

（可能后期资费标准会变更，请注意界面中的提示。）

如何付费？

可能你在页面上没有找到“付费”的相关按钮，其实很简单，只要不填写体验码，点击“合成”按钮后，自动进入费用核算环节，直到微信扫码支付，才能合成音频。

特别提示

扫码支付后，才真正开始合成音频，所以可能有一段等待的时间，请务必耐心等待，切不可关闭网页。

修饰符号

为了保证音频的正确性，我们还是保留了[b]和[s]标签，用来进行人工干预停顿和多音字。

人工停顿

只需要在文字中插入[b]，就能在该处停顿100毫秒，如果想停顿其他时长，则插入[b 停顿毫秒数]。

多音字

我们使用[s]标签来控制多音字，具体的格式是：[s 字拼音声调]，比如：银[s 行 hang 2]，机器人就能发出“银行”的读音。

最大化利用

目前，使用本工具的最佳方式是：免费体验+付费相结合。

将容易读错、断句易错的文字，用免费体验的方式打上[b]和[s]标签试听，满意后再整合长文本，使用付费的方式一次性合成音频。

多使用本工具几次后，相信你也能做到和我一样：拿到文字，就知道该在哪些地方打上[b]和[s]标签。

不管现在用不用得上，建议收藏本文章，以免急需时找不到。

再见！

不坑

“谢谢你的支持！”