阿里云智能语音交互语音合成高频SSML标记语言使用介绍

简介: SSML是一种基于XML的语音合成标记语言。与纯文本的合成相比,使用SSML可以充实合成的内容,为最终合成效果带来更多变化。SSML不仅控制语音合成能读什么,更能控制语音合成可以怎么读,包括控制断句分词方式、发音、速度、停顿、声调和音量等特征,甚至加入背景音乐。本文用来收录一些在使用过程中高频出现的标签
将带标签的文本作为text参数值,上传至语音合成服务,以Java SDK为例:
SpeechSynthesizer synthesizer = new SpeechSynthesizer(client, getSynthesizerListener());
String text = "<speak>请闭上眼睛休息一下<break time=\"500ms\"/>好了,请睁开眼睛。</speak>";
synthesizer.setText(text);
发送给语音合成服务的请求内容如下:
{
    "payload": {
        "volume": 50,
        "sample_rate": 16000,
        "format": "wav",
        "text": "<speak>请闭上眼睛休息一下<break time=\"500ms\"/>好了,请睁开眼睛。</speak>"
    },
    "context": {
        "sdk": {
            "name": "nls-sdk-java",
            "version": "2.0.4"
        }
    },
    "header": {
        "namespace": "SpeechSynthesizer",
        "name": "StartSynthesis",
        "message_id": "5fdf78c0dd574b6897f3cb204dd0****",
        "appkey": "fd4er4aa****",
        "task_id": "6e1be78ef5804c50a2c5a8b92de1****"
    }
}
标签
  • 描述
    标签是所有待支持SSML标签的根节点。一切需要调用SSML标签的文本都要包含在中。
  • 语法
 <speak>需要调用SSML标签的文本</speak>
  • 标签关系
    标签可以包含文本和以下标签:

    1. break
    2. s
    3. w
    4. phoneme
    5. say-as
  • 示例
    1.空属性

    <speak>
      需要调用SSML标签的文本
    </speak>

    2.voice属性

    <speak voice="xiaogang">
      我是男声。
    </speak>  

    3.rate属性

    <speak rate="200">
    我的语速比正常人快。
    </speak>

    4.volume属性

    <speak volume="80">
    我的音量也很大。
    </speak>

    5.effect属性

    <speak effect="robot">
    你喜欢机器人瓦力吗?
    </speak>

    6.标签
    用于在文本中插入停顿,该标签是可选标签

    # 空属性
    <break/>
    # 带time属性
    <break time="string"/>
    # 示例
    <speak>
    请闭上眼睛休息一下<break time="500ms"/>好了,请睁开眼睛。
    </speak>

    7.
    用于表示文本的句子结构,该标签是可选标签。
    标签可以包含文本和以下标签

    • break
    • w
    • phoneme
    • say-as

      <s>文本</s>
      # 示例
      <speak><s>这是第一句话</s><s>这是第二句话</s></speak>

    8.
    用于控制标签内文本的读音,该标签是可选标签。英文文本不支持该标签。

    <phoneme alphabet="string" ph="string">文本</phoneme>
    # 示例
    <speak>
      去<phoneme alphabet="py" ph="dian3 dang4 hang2">典当行</phoneme>把这个玩意<phoneme alphabet="py" ph="dang4 diao4">当掉</phoneme>
    </speak>

参考文档:阿里云智能语音交互SSML标记语言介绍

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
目录
相关文章
|
16天前
|
机器学习/深度学习 自然语言处理 API
如何使用阿里云的语音合成服务(TTS)将文本转换为语音?本文详细介绍了从注册账号、获取密钥到编写Python代码调用TTS服务的全过程
如何使用阿里云的语音合成服务(TTS)将文本转换为语音?本文详细介绍了从注册账号、获取密钥到编写Python代码调用TTS服务的全过程。通过简单的代码示例,展示如何将文本转换为自然流畅的语音,适用于有声阅读、智能客服等场景。
70 3
|
语音技术
阿里云语音识别服务提供了三个版本的录音文件识别
阿里云语音识别服务提供了三个版本的录音文件识别
509 1
|
API 语音技术 开发者
构建智能语音助手应用:语音识别和语音合成的实践
智能语音助手应用正在成为现代应用程序的热门趋势。语音识别技术使应用能够理解和解释用户的语音输入,而语音合成技术则将计算机生成的语音转化为可听的声音。本文将介绍构建智能语音助手应用的实践方法,并展示如何使用开源工具和API进行语音识别和语音合成。
517 0
|
API 语音技术
构建智能语音助手应用:语音识别和语音合成的实践
智能语音助手应用正变得越来越流行,它们能够通过语音与用户进行交互,为用户提供便捷的服务。在本文中,我们将介绍如何构建一个智能语音助手应用,包括语音识别和语音合成的实践。我们将使用现代化的语音处理技术和开源工具来实现这个应用。
376 0
《阿里云产品手册2022-2023 版》——智能语音交互
《阿里云产品手册2022-2023 版》——智能语音交互
120 0
|
人工智能 语音技术 自然语言处理
《阿里云AI产品必知必会系列电子书》——智能语音交互—— 一句话识别QuickStart使用教程(1)
《阿里云AI产品必知必会系列电子书》——智能语音交互—— 一句话识别QuickStart使用教程(1)
757 0
|
人工智能
《阿里云AI产品必知必会系列电子书》——智能语音交互—— 一句话识别QuickStart使用教程(2)
《阿里云AI产品必知必会系列电子书》——智能语音交互—— 一句话识别QuickStart使用教程(2)
663 0
|
人工智能 Java 调度
《阿里云AI产品必知必会系列电子书》——智能语音交互—— 一句话识别QuickStart使用教程(3)
《阿里云AI产品必知必会系列电子书》——智能语音交互—— 一句话识别QuickStart使用教程(3)
708 0
|
人工智能 Java 语音技术
《阿里云AI产品必知必会系列电子书》——智能语音交互——语音合成QuickStart使用教程
《阿里云AI产品必知必会系列电子书》——智能语音交互——语音合成QuickStart使用教程
882 0
|
4月前
|
机器学习/深度学习 自然语言处理 算法
未来语音交互新纪元:FunAudioLLM技术揭秘与深度评测
人类自古以来便致力于研究自身并尝试模仿,早在2000多年前的《列子·汤问》中,便记载了巧匠们创造出能言善舞的类人机器人的传说。
12305 116