语音生成领域模型又填一名猛将

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: TTS即Text-to-speech文本转语音是近几年AI研究领域的一大热点,该类模型语音合成领域有着非常广阔的应用。尤其是这两年有声书非常火热,有很多前几年积累的网络小说,经过TTS模型后,就变成了有声书,然后在喜马拉雅或蜻蜓FM等类似频道就可以上线售卖。又把该类模型的应用价值直接拉满。但一个好的语音合成模型却非常难得,一方面要生成的对,即准确率要高;另一方面生成的语音要真实、机械感低。尤其是第二个方面非常难得。人类对于语句的朗读是有抑扬顿挫的,有时又要结合句子含义,有感情的变化。这对于模型是非常难以学习训练的。

TTS即Text-to-speech文本转语音是近几年AI研究领域的一大热点,该类模型语音合成领域有着非常广阔的应用。

尤其是这两年有声书非常火热,有很多前几年积累的网络小说,经过TTS模型后,就变成了有声书,然后在喜马拉雅或蜻蜓FM等类似频道就可以上线售卖。又把该类模型的应用价值直接拉满。

但一个好的语音合成模型却非常难得,一方面要生成的对,即准确率要高;另一方面生成的语音要真实、机械感低。尤其是第二个方面非常难得。人类对于语句的朗读是有抑扬顿挫的,有时又要结合句子含义,有感情的变化。这对于模型是非常难以学习训练的。

此外还有多语种结合问题:如中文夹杂英文的情况;声色问题,即根据少量的声纹特点,合成具体声色的语音。比如男中音、女高音等。因此一个简洁好用的TTS模型可遇不可求。
2.jpg
1.jpg

目前主流的模型设计方案是分为两个部分:声学模型和声码器。声学模型主要采用类BERT类模型,把输入的文字经过NLP处理,预测出声学特征。声码器主要采用GAN类模型,把声学特征转换成声波信息。

AI模型市场最近上线了一款新的TTS模型,我们通过和作者的沟通,发现作者就是使用了上述的模型经过,在经过10几个小时的大数据量训练,成功孵化出一款优秀的TTS模型。实测下来发现,模型的准确度、速度、真实性都调教的非常均衡,还支持中英文~

有需要的小伙伴欢迎来AI模型市场(aimodelmarket.cn)试用,快来围观这款语音生成领域的猛将是如何玩转TTS的~
1.png

目录
相关文章
|
7月前
|
编解码 文字识别 测试技术
3000 字带你了解Claude3 视觉能力,OCR, 菜单识别统统能搞定!
五大任务,带你了解Claude3的视觉能力有多强 2024 年 3 月 4 日,Anthropic 震撼发布了全新的多模态模型——Claude 3。据该公司介绍,无论是语言处理还是视觉识别任务,Claude 3 都展现出了超越同类竞争产品(例如配备视觉功能的 GPT-4)的卓越性能。
222 0
|
7月前
|
人工智能 机器人 Android开发
ChatGPT新增朗读功能,可以语音播报生成结果
【2月更文挑战第15天】ChatGPT新增朗读功能,可以语音播报生成结果
196 1
ChatGPT新增朗读功能,可以语音播报生成结果
|
7月前
|
数据可视化 API uml
【有奖调研】开发文档功能升级:接口分组更清晰;增加参数中文名
【有奖调研】开发文档功能升级:接口分组更清晰;增加参数中文名
66 0
09 公众号开发 - 回复用户语音消息识别代码
09 公众号开发 - 回复用户语音消息识别代码
57 0
|
存储 Web App开发 JavaScript
前端语音转文字实践总结
前端语音转文字实践总结
前端语音转文字实践总结
|
人工智能 达摩院 搜索推荐
语音交互如何改变人与互联网的关系 | 学习笔记
快速学习语音交互如何改变人与互联网的关系
131 0
|
搜索推荐 UED
语音直播系统,开发推送通知需要遵守的原则
语音直播系统,开发推送通知需要遵守的原则
|
机器学习/深度学习 算法
语音直播系统,做好敏感词屏蔽打造绿色社交环境
语音直播系统,做好敏感词屏蔽打造绿色社交环境
|
机器学习/深度学习 自然语言处理 机器人
Freesiwtch VAD语音识别模块参数-开发电话语音机器人
高性能商业VAD静音检测模块、噪音过滤、自动增益模块 2、无损不压缩采集方式,识别效率全国最高 3、异步说话、多句话, 整句话事件 4、最小说话时间、最大说话时间、最小停顿时间、最大停顿时间
|
语音技术 Python 前端开发

热门文章

最新文章