开发者社区 问答 正文

阿里云OpenAPI听悟那个如果是电话录音 识别的时候能做角色区分吗?

阿里云OpenAPI听悟那个如果是电话录音 识别的时候能做角色区分吗?

展开
收起
三分钟热度的鱼 2024-05-05 20:27:15 75 分享 版权
阿里云 AI 助理回答

在使用阿里云通义听悟的语音转写功能时,电话录音的识别是否支持角色区分取决于是否启用了“说话人分离”功能。以下是详细说明:

1. 说话人分离功能

通义听悟支持在语音转写过程中开启“说话人分离”功能,用于区分对话中的不同发言人。此功能可以通过设置请求参数 Transcription.DiarizationEnabledtrue 来启用。

  • 参数配置
    • Transcription.DiarizationEnabled:布尔值,设置为 true 表示开启说话人分离功能。
    • Transcription.Diarization.SpeakerCount:整数值,用于指定说话人数量:
    • 0:表示不定人数(系统自动判断)。
    • 2:表示固定为两人对话。

对于电话录音场景,通常涉及两人对话,因此可以将 SpeakerCount 设置为 2,以实现对两个角色的区分。

2. 角色区分的限制

需要注意的是,说话人分离功能仅能区分不同的发音人,而无法直接识别具体的身份信息(如客户或领导)。如果需要标注具体身份,可以在转写完成后手动修改发音人名称。

3. 适用场景

  • 离线任务:适用于处理已录制的电话录音文件。
  • 实时任务:适用于实时电话录音流的转写和角色区分。

4. 操作步骤

以下是一个典型的配置示例,用于在电话录音识别中启用角色区分功能:

{
  "Transcription": {
    "DiarizationEnabled": true,
    "Diarization": {
      "SpeakerCount": 2
    }
  }
}

5. 重要提醒

  • 采样率要求:电话录音通常为8K或16K采样率,通义听悟支持这两种采样率的音频处理。请确保输入音频符合要求。
  • 并发限制:如果实时记录的并发路数超过200路,需联系技术支持进行扩容。

通过以上配置和注意事项,您可以成功实现电话录音中不同角色的语音识别与区分。

有帮助
无帮助
AI 助理回答生成答案可能存在不准确,仅供参考
0 条回答
写回答
取消 提交回答