阿里云百炼推出的语音大模型Qwen-ASR还蛮不错的,我希望应用于歌曲歌词的逐字lrc文件的生成。
所以,我想请教Qwen-ASR大模型是否有逐字或者逐词的时间戳的输出。
【已做工作】
1、翻阅了Qwen-ASR的API文档,其中没有提到有时间戳的输出。但我想既然都已经识别到歌词了,输出所对应的时间戳应该不难,就类比一开始的whisper和后来的fast-whisper、whisperx一样;
2、又发现了一个开源的基于Qwen-ASR的官方项目Qwen-ASR-toolkit,这个能用命令行运行,并且也有timestamp这个输出的选项(-srt)。试用之后发现,即使将拆分音频块的持续时间改为1s (-d 1),最终输出的srt结果还是一整块歌词都粘一起了。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
基于通义系列大模型和开源大模型的一站式大模型服务平台,提供「生成式大模型的全流程应用工具」和「企业大模型的全链路训练工具」。为大模型,也为小应用。 阿里云百炼官网网址:https://www.aliyun.com/product/bailian