问题一:声音训练的时候提交音频检测,我上传的音频是wav格式并且输入格式是单声道16bit 采样位数,16000Hz采样率,提交一直提示发音错误,请准确读出文案中的内容\
{'HttpCode': 200, 'RequestId': '0DE91947-CD18-5F10-9505-64BCD4CF6327', 'Data': {'reason': '发音错误,请准确读出文案中的内容', 'pass': False}, 'Success': True}
{'Scenario': 'story', 'VoiceName': 'xiaot', 'RecordUrl': 'https://umi-intelligence.oss-cn-shenzhen.aliyuncs.com/static/digital_human/5f460dad-9e9d-4ac2-8e69-2632980335cb.wav', 'AudioRecordId': 1, 'Version': '2019-09-05', 'Action': 'CustomizedVoiceAudioDetect', 'Format': 'JSON'}这个是请求的参数
https://umi-intelligence.oss-cn-shenzhen.aliyuncs.com/static/digital_human/1c7bcea6-6aa1-42d8-b050-350496452d6a.wav 如果换成这个音频文件就可以,都是单声道16bit16000hz,只不过这个音频是苹果手机录制的,上面那个是安卓手机
问题二:请问这个和我上传的声音格式有关系吗?
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
问题一:根据您提供的信息,您上传的音频文件格式为wav,采样位数为16bit,采样率为16000Hz,与要求一致。然而,您收到的错误提示是"发音错误,请准确读出文案中的内容"。这可能意味着您的音频文件中的发音与提供的文案内容不匹配。建议您再次检查音频文件并确保发音准确无误。
问题二:根据您提供的信息,不同手机录制的音频文件在提交时产生了不同的结果。这可能与手机设备、录音软件或音频编码方式等因素有关。建议您尝试使用相同的录音设备和软件来录制音频文件,以确保一致性。另外,还可以尝试将音频文件转换为其他格式(如mp3)后再进行提交,以排除格式兼容性问题的可能性。
针对问题一的回答:您好,您这个录音第一个听起来混响比较大,而且这两个音频底噪都有点严重,即便能通过 对训练效果也是会有影响的,这里有些录音建议您可以参考下:
针对问题二的回答:格式是对的,主要原因还是在噪音,能换48k的会更好些—此回答来自钉群“ 阿里语音AI【6群】”