阿里云OpenAPI听悟那个如果是电话录音 识别的时候能做角色区分吗?
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
在使用阿里云通义听悟的语音转写功能时,电话录音的识别是否支持角色区分取决于是否启用了“说话人分离”功能。以下是详细说明:
通义听悟支持在语音转写过程中开启“说话人分离”功能,用于区分对话中的不同发言人。此功能可以通过设置请求参数 Transcription.DiarizationEnabled
为 true
来启用。
Transcription.DiarizationEnabled
:布尔值,设置为 true
表示开启说话人分离功能。Transcription.Diarization.SpeakerCount
:整数值,用于指定说话人数量:0
:表示不定人数(系统自动判断)。2
:表示固定为两人对话。对于电话录音场景,通常涉及两人对话,因此可以将 SpeakerCount
设置为 2
,以实现对两个角色的区分。
需要注意的是,说话人分离功能仅能区分不同的发音人,而无法直接识别具体的身份信息(如客户或领导)。如果需要标注具体身份,可以在转写完成后手动修改发音人名称。
以下是一个典型的配置示例,用于在电话录音识别中启用角色区分功能:
{
"Transcription": {
"DiarizationEnabled": true,
"Diarization": {
"SpeakerCount": 2
}
}
}
通过以上配置和注意事项,您可以成功实现电话录音中不同角色的语音识别与区分。