使用 CosyVoice 遇到的一个音频头部问题
确定是有噪音的,使用了多种方式:
使用这里的 demo:https://help.aliyun.com/zh/dashscope/developer-reference/cosyvoice-quick-start?spm=a2c4g.11186623.0.0.2bb47ff0fjPiLU使用逻辑,默认将 LLM 生成的增量字段通过全双工的方式传递,由 cosyVoice 判断返回时机,传递第一个音频片段,这种方式返回的音频片段经过使用发现,只有第一个音频片段带有音频头部,可以单独播放,之后的需要用动态添加的方式进行;可以看到的是 demo 中直接 java 调用的音频播放器SourceDataLine是可以按照这个逻辑的;但是在其他端的其他语言(JS,Swift)等,较难处理这种;一楼给的答案已经搜过了,我要是没用过,不会来提问题(强烈踩一楼这种直接把其他 AI 回答给出,然后每天刷赞的行为)使用自己切片,不通过 demo 这种方式,而是将每句话单独合成,这样,仍然含有噪音(使用 cosyvoice,判断是模型问题),每句话都有音频头,这样完成了处理;所以,将音频格式改为 mp3+22050采样频率,发现噪音影响会降到最低;至此问题基本解决
总结:
cosyvoice +LLM 通过第一帧含音频头的方式在 web 端比较难处理cosyvoice 返回多短单独音频,在拼接时存在噪音问题
赞70
踩0