备案控制台

游客ovl6ffihmaxge_个人页

游客ovl6ffihmaxge

文章

0

问答

2

视频

0

个人介绍

暂无个人介绍

擅长的技术

获得更多能力

通用技术能力：

暂时未有相关通用技术能力~

云产品技术能力：

暂时未有相关云产品技术能力~

阿里云技能认证

详细说明

文章
问答
视频

暂无更多信息

2024年09月

09.18 16:02:24

回答了问题 2024-09-18 16:02:24

使用 CosyVoice 遇到的一个音频头部问题

赞136 踩0 评论0
09.09 11:16:20

提交了问题 2024-09-09 11:16:20

使用 CosyVoice 遇到的一个音频头部问题

正在加载, 请稍后...

暂无更多信息

回答了问题 2024-09-18

使用 CosyVoice 遇到的一个音频头部问题

确定是有噪音的，使用了多种方式：使用这里的 demo：https://help.aliyun.com/zh/dashscope/developer-reference/cosyvoice-quick-start?spm=a2c4g.11186623.0.0.2bb47ff0fjPiLU使用逻辑，默认将 LLM 生成的增量字段通过全双工的方式传递，由 cosyVoice 判断返回时机，传递第一个音频片段，这种方式返回的音频片段经过使用发现，只有第一个音频片段带有音频头部，可以单独播放，之后的需要用动态添加的方式进行；可以看到的是 demo 中直接 java 调用的音频播放器SourceDataLine是可以按照这个逻辑的；但是在其他端的其他语言（JS，Swift）等，较难处理这种；一楼给的答案已经搜过了，我要是没用过，不会来提问题（强烈踩一楼这种直接把其他 AI 回答给出，然后每天刷赞的行为）使用自己切片，不通过 demo 这种方式，而是将每句话单独合成，这样，仍然含有噪音（使用 cosyvoice，判断是模型问题），每句话都有音频头，这样完成了处理；所以，将音频格式改为 mp3+22050采样频率，发现噪音影响会降到最低；至此问题基本解决总结： cosyvoice +LLM 通过第一帧含音频头的方式在 web 端比较难处理cosyvoice 返回多短单独音频，在拼接时存在噪音问题

赞136 踩0 评论0
提交了问题 2024-09-09

使用 CosyVoice 遇到的一个音频头部问题

正在加载, 请稍后...

滑动查看更多

正在加载, 请稍后...

暂无更多信息