因为工作需要用到文本转语音文件,然后进行播放的应用场景。
我先后研究了三种开源的框架程序,festival、ekho和espeak。但实际运行后,效果很差,也没精力训练调试它们。
后来我突然想起来在科大讯飞是语音处理的老大,TTS也是他们的龙头产品,于是想何不试试他们的效果(讯飞看到后请给我些赞助费啊)。
下面我讲一下使用讯飞TTS的步骤:
1:在讯飞的开发者网站上注册为开发者
https://passport.xfyun.cn/register
2:控制台上创建应用
3:选择离线版语音合成
4:下载SDK
5:小黑板敲重点
1)对gcc版本要求高,在LINUX7.5上可以顺利编译,在LINUX6.5上编译失败。
2)修改Demo程序,输入自己想生成的文本信息
3)session_begin_params中的rdn 参数用来设定数字读取的方式
比如11:30的读取方法,是读yiyidiansanling,还是shiyidiansanshi。我是用rnd=3,让TTS自己根据习惯去合成读取数字。
4) 用64bit_make.sh 可以编译生成64位程序;用32bit_make.sh生成32为程序;直接输入make编译失败。
5)如果执行demo程序tts_offline_sample失败,那么请看下是否将libmsc.so有没有加载到ldconfig中。如果没有,则将libmsc.so放到/usr/lib64下,然后用root
用户ldconfig,将so加载到内存中。
6)免费版使用时间大概3个月,到期后需要重新下载sdk,重新编译。下载的sdk大概和你在他们
的web网站创建的appid进行了绑定。到时间就不能用了,必须重新下载才行。
7)商用时请用正版,商用版也不贵,8000元就足够用了。我现在还在用他们的免费版,以后商用了再说吧。