文档备案控制台

开发者社区问答正文

阿里云OpenAPI听悟那个如果是电话录音识别的时候能做角色区分吗？

展开

收起

三分钟热度的鱼 2024-05-05 20:27:15 332 版权

阿里云 AI 助理回答

在使用阿里云通义听悟的语音转写功能时，电话录音的识别是否支持角色区分取决于是否启用了“说话人分离”功能。以下是详细说明：

1. 说话人分离功能

通义听悟支持在语音转写过程中开启“说话人分离”功能，用于区分对话中的不同发言人。此功能可以通过设置请求参数 Transcription.DiarizationEnabled 为 true 来启用。

参数配置：
- Transcription.DiarizationEnabled：布尔值，设置为 true 表示开启说话人分离功能。
- Transcription.Diarization.SpeakerCount：整数值，用于指定说话人数量：
- 0：表示不定人数（系统自动判断）。
- 2：表示固定为两人对话。

对于电话录音场景，通常涉及两人对话，因此可以将 SpeakerCount 设置为 2，以实现对两个角色的区分。

2. 角色区分的限制

需要注意的是，说话人分离功能仅能区分不同的发音人，而无法直接识别具体的身份信息（如客户或领导）。如果需要标注具体身份，可以在转写完成后手动修改发音人名称。

3. 适用场景

离线任务：适用于处理已录制的电话录音文件。
实时任务：适用于实时电话录音流的转写和角色区分。

4. 操作步骤

以下是一个典型的配置示例，用于在电话录音识别中启用角色区分功能：

{
  "Transcription": {
    "DiarizationEnabled": true,
    "Diarization": {
      "SpeakerCount": 2
    }
  }
}

5. 重要提醒

采样率要求：电话录音通常为8K或16K采样率，通义听悟支持这两种采样率的音频处理。请确保输入音频符合要求。
并发限制：如果实时记录的并发路数超过200路，需联系技术支持进行扩容。

通过以上配置和注意事项，您可以成功实现电话录音中不同角色的语音识别与区分。

有帮助

无帮助

AI 助理回答生成答案可能存在不准确，仅供参考

0 条回答

写回答

取消提交回答

问答标签：

阿里云openapi openapi阿里云 openapi区分 openapi听悟 openapi识别

问答地址：

开发者社区 > 开发与运维 > 问答

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料