游客ovl6ffihmaxge_个人页

个人头像照片 游客ovl6ffihmaxge
个人头像照片
0
2
0

个人介绍

暂无个人介绍

擅长的技术

获得更多能力
通用技术能力:

暂时未有相关通用技术能力~

云产品技术能力:

暂时未有相关云产品技术能力~

阿里云技能认证

详细说明
暂无更多信息
暂无更多信息
正在加载, 请稍后...
暂无更多信息
  • 回答了问题 2024-09-18

    使用 CosyVoice 遇到的一个音频头部问题

    确定是有噪音的,使用了多种方式: 使用这里的 demo:https://help.aliyun.com/zh/dashscope/developer-reference/cosyvoice-quick-start?spm=a2c4g.11186623.0.0.2bb47ff0fjPiLU使用逻辑,默认将 LLM 生成的增量字段通过全双工的方式传递,由 cosyVoice 判断返回时机,传递第一个音频片段,这种方式返回的音频片段经过使用发现,只有第一个音频片段带有音频头部,可以单独播放,之后的需要用动态添加的方式进行;可以看到的是 demo 中直接 java 调用的音频播放器SourceDataLine是可以按照这个逻辑的;但是在其他端的其他语言(JS,Swift)等,较难处理这种;一楼给的答案已经搜过了,我要是没用过,不会来提问题(强烈踩一楼这种直接把其他 AI 回答给出,然后每天刷赞的行为)使用自己切片,不通过 demo 这种方式,而是将每句话单独合成,这样,仍然含有噪音(使用 cosyvoice,判断是模型问题),每句话都有音频头,这样完成了处理;所以,将音频格式改为 mp3+22050采样频率,发现噪音影响会降到最低;至此问题基本解决 总结: cosyvoice +LLM 通过第一帧含音频头的方式在 web 端比较难处理cosyvoice 返回多短单独音频,在拼接时存在噪音问题
    踩0 评论0
  • 提交了问题 2024-09-09

    使用 CosyVoice 遇到的一个音频头部问题

正在加载, 请稍后...
滑动查看更多
正在加载, 请稍后...
暂无更多信息