开发者社区 问答 正文

如下,请问阿里语音AI的这个问题怎么解决?

问题一:声音训练的时候提交音频检测,我上传的音频是wav格式并且输入格式是单声道16bit 采样位数,16000Hz采样率,提交一直提示发音错误,请准确读出文案中的内容\
30e090bd234c04229a27b819fc89b33c.png
{'HttpCode': 200, 'RequestId': '0DE91947-CD18-5F10-9505-64BCD4CF6327', 'Data': {'reason': '发音错误,请准确读出文案中的内容', 'pass': False}, 'Success': True}
{'Scenario': 'story', 'VoiceName': 'xiaot', 'RecordUrl': 'https://umi-intelligence.oss-cn-shenzhen.aliyuncs.com/static/digital_human/5f460dad-9e9d-4ac2-8e69-2632980335cb.wav', 'AudioRecordId': 1, 'Version': '2019-09-05', 'Action': 'CustomizedVoiceAudioDetect', 'Format': 'JSON'}这个是请求的参数
https://umi-intelligence.oss-cn-shenzhen.aliyuncs.com/static/digital_human/1c7bcea6-6aa1-42d8-b050-350496452d6a.wav 如果换成这个音频文件就可以,都是单声道16bit16000hz,只不过这个音频是苹果手机录制的,上面那个是安卓手机
问题二:请问这个和我上传的声音格式有关系吗?

展开
收起
乐天香橙派 2023-10-29 15:34:38 121 分享 版权
2 条回答
写回答
取消 提交回答
  • 问题一:根据您提供的信息,您上传的音频文件格式为wav,采样位数为16bit,采样率为16000Hz,与要求一致。然而,您收到的错误提示是"发音错误,请准确读出文案中的内容"。这可能意味着您的音频文件中的发音与提供的文案内容不匹配。建议您再次检查音频文件并确保发音准确无误。

    问题二:根据您提供的信息,不同手机录制的音频文件在提交时产生了不同的结果。这可能与手机设备、录音软件或音频编码方式等因素有关。建议您尝试使用相同的录音设备和软件来录制音频文件,以确保一致性。另外,还可以尝试将音频文件转换为其他格式(如mp3)后再进行提交,以排除格式兼容性问题的可能性。

    2023-10-30 15:44:33
    赞同 展开评论
  • 针对问题一的回答:您好,您这个录音第一个听起来混响比较大,而且这两个音频底噪都有点严重,即便能通过 对训练效果也是会有影响的,这里有些录音建议您可以参考下:
    b5e1cd9716a0d4da029537a92346c877.png
    30615d7b0de5a5d136feaff44660636f.png
    afccc14aa84454aaa8c1bb627fc87b23.png
    针对问题二的回答:格式是对的,主要原因还是在噪音,能换48k的会更好些—此回答来自钉群“ 阿里语音AI【6群】”

    2023-10-29 15:50:40
    赞同 展开评论