请问语音大模型Qwen-ASR是否支持输出字级别的时间戳?

阿里云百炼推出的语音大模型Qwen-ASR还蛮不错的,我希望应用于歌曲歌词的逐字lrc文件的生成。
所以,我想请教Qwen-ASR大模型是否有逐字或者逐词的时间戳的输出。
【已做工作】
1、翻阅了Qwen-ASRAPI文档,其中没有提到有时间戳的输出。但我想既然都已经识别到歌词了,输出所对应的时间戳应该不难,就类比一开始的whisper和后来的fast-whisperwhisperx一样;
2、又发现了一个开源的基于Qwen-ASR的官方项目Qwen-ASR-toolkit,这个能用命令行运行,并且也有timestamp这个输出的选项(-srt)。试用之后发现,即使将拆分音频块的持续时间改为1s (-d 1),最终输出的srt结果还是一整块歌词都粘一起了。

展开
收起
游客oaxcvbjrhro2a 2025-09-30 22:10:02 14 分享 版权
0 条回答
写回答
取消 提交回答

基于通义系列大模型和开源大模型的一站式大模型服务平台,提供「生成式大模型的全流程应用工具」和「企业大模型的全链路训练工具」。为大模型,也为小应用。 阿里云百炼官网网址:https://www.aliyun.com/product/bailian

还有其他疑问?
咨询AI助理