神器 | 文本转语音,直接可以合成多人多风格音频了!

简介: 为了适应更多的音频使用场景和需求,近期我们将文本转语音服务进行了升级,全新的功能将成为你配音工具的不二之选。

为了适应更多的音频使用场景和需求,近期我们将文本转语音服务进行了升级,全新的功能将成为你配音工具的不二之选。


“善变”的笑笑


现在,笑笑的语音风格更多了,目前已有:正式叙述,热情友好,热情轻松,轻松随意,沉着冷静,欢快高音,哭泣呜咽,生气愤怒,紧张不安,不悦轻蔑,严肃命令,温暖亲切(高音),温和礼貌(低音),优美伤感


有没有被这庞大的语音风格群体所吓到呢?用简单的话来说——笑笑几乎能发出我们日常能接触到的所有语音风格。


有了这些说话风格,我们就能随心所欲地合成各种类型的音频了,包括且不限于:新闻播报自媒体配音微课配音故事阅读虚拟主播


相信,在你的手上,还能玩出更多新花样。


新的播讲人——云叶


这是一位专业讲故事的机器人,但它讲故事的风格可能和你印象中的故事有点区别,它使用的是说书人的说话风格,可以试听下面的音频。具体用不用得上,就自己决定喽。


多播讲人多风格合成


或许,我们的文本转语音工具是目前能实现此需求的最简单的。只需要把文本输入进去,给不同的文本选择不同的发言风格,就能生成一部广播剧!


什么叫多播讲人多风格?


曾经,我们想在一个音频中实现多个机器人发音或者同一个机器人不同语音,正常的操作应该是:分成段多次合成,再用音频剪辑工具把多段音频合成


而如今,有了我们的文本转语音工具,你只需要合成一次,就能把不把播讲人及不同风格的发音合成到一个音频中



如何实现多播讲人多风格?


新版的界面,已经把播讲人和风格放置在了文本框的前面,表示这一行将使用前面所选定的播讲人和风格。


细心的你,一定能找到增加一行这个按钮,点一下,就能在原来的基础上增加一行,在这一行中,你能单独设置播讲人和风格。


那么综合利用起来,你就能制作如下图所示的音频内容,图片后有音频可以试听。



免费体验


说得好听,不如上手体验。


新版增加这么多功能,还是给了大家免费体验的机会,每个微信账号每天能够免费使用本工具9次(每个体验码能体验合成3次,每个微信号每天最多能获得3个体验码)。


免费体验可以使用上面所述的所有功能,与付费使用完全相同。唯一有限制的是:免费体验每次最大字数不能超过500字(后期可能还会再调小)


付费使用


为了大家能够更长久地使用本工具,我们还是制作了付费功能,相比市面上其他语音合成工具,相信已经便宜得令人发指了。


基本情况


付费标准是:每100个字收费0.1元,不足100按100计数。


付费合成文字最大长度:2000。


换句话说,付费合成每次最少支付0.10元,最多支付2.00元。


(可能后期资费标准会变更,请注意界面中的提示。)


如何付费?


可能你在页面上没有找到“付费”的相关按钮,其实很简单,只要不填写体验码,点击“合成”按钮后,自动进入费用核算环节,直到微信扫码支付,才能合成音频。


特别提示


扫码支付后,才真正开始合成音频,所以可能有一段等待的时间,请务必耐心等待,切不可关闭网页。


修饰符号


为了保证音频的正确性,我们还是保留了[b][s]标签,用来进行人工干预停顿和多音字。


人工停顿


只需要在文字中插入[b],就能在该处停顿100毫秒,如果想停顿其他时长,则插入[b 停顿毫秒数]


多音字


我们使用[s]标签来控制多音字,具体的格式是:[s 字 拼音 声调],比如:银[s 行 hang 2],机器人就能发出“银行”的读音。


最大化利用


目前,使用本工具的最佳方式是:免费体验+付费相结合。


将容易读错、断句易错的文字,用免费体验的方式打上[b][s]标签试听,满意后再整合长文本,使用付费的方式一次性合成音频。


多使用本工具几次后,相信你也能做到和我一样:拿到文字,就知道该在哪些地方打上[b][s]标签。




不管现在用不用得上,建议收藏本文章,以免急需时找不到。


再见!



不坑


谢谢你的支持!

相关文章
|
Web App开发 XML 人工智能
文本转语音如此简单
这两天在研究文本转音的功能,有时候担心自己的普通话不标准,比方说要录制一个视频,即兴讲可能会卡壳,这个时候我们就可以先准备好文本,然后再利用人工智能来生成音频,下面就分享下我的研究成果吧!
1689 0
|
人工智能 搜索推荐
阿里语音AI提供了个性化人声定制功能
【2月更文挑战第24天】阿里语音AI提供了个性化人声定制功能
1102 2
|
搜索推荐 算法 Linux
这款文本转语音(TTS)
【8月更文挑战第6天】Fish Speech是一款先进的开源文本转语音(TTS)工具,它能迅速将文字转换为流畅自然的语音,尤其适合镜头前感到紧张的人制作视频内容。Fish Speech支持中文、英文及日文等多种语言,可通过简单的原始语音样本快速克隆个性化声音。其架构设计高效,仅需4GB显存即可运行,采用Flash-Attn算法实现高性能语音合成。Fish Speech具备易用性,提供Web界面操作,并可在Linux与Windows系统上部署。用户可通过官网([https://fish.audio/zh-CN/](https://fish.audio/zh-CN/))直接体验其强大功能。
1079 0
|
7月前
|
机器学习/深度学习 人工智能 异构计算
SkyReels-A1:解放动画师!昆仑开源「数字人制造机」:一张照片生成逼真虚拟主播,表情连眉毛颤动都可控
SkyReels-A1 是昆仑万维开源的首个 SOTA 级别表情动作可控的数字人生成模型,支持高保真肖像动画生成和精确的表情动作控制。
574 23
|
10月前
|
人工智能 Kubernetes API
应用网关的演进历程和分类
唯一不变的是变化,在现代复杂的商业环境中,企业的业务形态与规模往往处于不断变化和扩大之中。这种动态发展对企业的信息系统提出了更高的要求,特别是在软件架构方面。为了应对不断变化的市场需求和业务扩展,软件架构必须进行相应的演进和优化。网关作为互联网流量的入口,其形态也在跟随软件架构持续演进迭代中。我们下面就聊一聊网关的演进历程以及在时下火热的 AI 浪潮下,网关又会迸发怎样新的形态。
697 141
|
8月前
|
人工智能 自然语言处理 并行计算
Kokoro-TTS:超轻量级文本转语音模型,支持生成多种语言和多种语音风格
Kokoro-TTS 是一款轻量级文本转语音模型,支持多语言和多语音风格生成,具备实时处理能力和低资源占用,适用于多种应用场景。
1124 5
Kokoro-TTS:超轻量级文本转语音模型,支持生成多种语言和多种语音风格
|
9月前
|
人工智能 自然语言处理 人机交互
CosyVoice 2.0:阿里开源升级版语音生成大模型,支持多语言和跨语言语音合成,提升发音和音色等的准确性
CosyVoice 2.0 是阿里巴巴通义实验室推出的语音生成大模型升级版,通过有限标量量化技术和块感知因果流匹配模型,显著提升了发音准确性、音色一致性和音质,支持多语言和流式推理,适合实时语音合成场景。
6524 22
CosyVoice 2.0:阿里开源升级版语音生成大模型,支持多语言和跨语言语音合成,提升发音和音色等的准确性
|
9月前
|
机器学习/深度学习 人工智能 达摩院
ClearerVoice-Studio:阿里通义开源的语音处理框架,提供语音增强、分离和说话人提取等功能
ClearerVoice-Studio 是阿里巴巴达摩院通义实验室开源的语音处理框架,集成了语音增强、分离和音视频说话人提取等功能。该框架基于复数域深度学习算法,能够有效消除背景噪声,保留语音清晰度,并提供先进的预训练模型和训练脚本,支持研究人员和开发者进行语音处理任务。
1623 3
ClearerVoice-Studio:阿里通义开源的语音处理框架,提供语音增强、分离和说话人提取等功能
|
7月前
|
机器学习/深度学习 缓存 自然语言处理
《DeepSeek推理加速术:高效响应的秘密武器》
DeepSeek是一款备受瞩目的语言模型,通过架构优化、量化技术、缓存机制及分布式推理等手段,在推理速度上取得显著优势。它在文本生成、智能客服等任务中表现出色,极大提升了用户体验和效率。特别是在处理长序列文本时,DeepSeek的优化注意力机制大幅降低了计算复杂度,使其在新闻写作、舆情分析等场景中能够快速生成高质量内容。此外,量化技术和分布式推理进一步减少了计算开销,拓展了计算能力,为自然语言处理的广泛应用奠定了坚实基础。
324 0
|
10月前
|
人工智能 自然语言处理 并行计算
EchoMimicV2:阿里推出的开源数字人项目,能生成完整数字人半身动画
EchoMimicV2是阿里蚂蚁集团推出的开源数字人项目,能够生成完整的数字人半身动画。该项目基于参考图片、音频剪辑和手部姿势序列,通过音频-姿势动态协调策略生成高质量动画视频,确保音频内容与半身动作的一致性。EchoMimicV2不仅支持中文和英文驱动,还简化了动画生成过程中的复杂条件,适用于虚拟主播、在线教育、娱乐和游戏等多个应用场景。
3192 5
EchoMimicV2:阿里推出的开源数字人项目,能生成完整数字人半身动画