在阿里语音AI语音合成中,调用“中文及中英文混合场景”的人物时,假设合成英文是“This ruler 100 cm”,调用api后,生成出来的音频中的“100”是中文发音,如何定义它为英文发音呢?
可以使用SSML标记语言:https://help.aliyun.com/document_detail/101645.html?spm=a2c4g.207373.0.0.73527312virc30 此回答整理自钉群“阿里语音AI【6群】”
在阿里语音AI的语音合成接口中,如果需要合成英文的数字、量词等内容,需要使用对应的英文语音标注方式,以告诉阿里语音AI服务如何正确发音。
例如,在调用阿里语音AI的语音合成接口时,可以使用 SSML 标记语言对文本内容进行标记和注释,以指定需要发音的语音标注方式。具体步骤如下:
在需要发音的文本内容中,使用 SSML 语言标记对数字、量词等进行标注,并指定对应的发音方式。例如: 100 cm 这段标记表示将数字“100”标记为基数(cardinal)形式,并按照英文发音方式进行发音。在阿里语音AI服务中,支持多种语音标记方式,可以根据不同的需求进行选择。
将标记后的文本内容,作为参数传递给阿里语音AI的语音合成接口进行调用,并获取返回的语音数据。
将返回的语音数据进行解码,并将解码后的数据传递给音频播放组件进行播放。
需要注意的是,在使用 SSML 标记方式进行发音时,需要确保标记的格式正确,并选择正确的语音标记方式,以保证语音合成的准确性和效果。同时,在播放音频时,需要确保 Unity 中已经配置好相应的音频播放组件和音频文件格式等信息。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。