modelscope-funasr的Qwen-Audio是把Whisper作为语音识别,然后处理吗?

modelscope-funasr的Qwen-Audio 这个项目是把 Whisper 作为语音识别,然后用通义千问处理识别结果吗?

展开
收起
三分钟热度的鱼 2024-02-01 16:40:43 231 分享 版权
阿里云 AI 助理回答

Qwen-Audio 并未使用 Whisper 作为语音识别模型,而是基于阿里云自研的 Qwen-Audio 模型进行语音识别和处理。

根据知识库资料,Qwen-Audio 是一个专用于音频理解的大规模语言模型,能够接收多种音频(包括人类语音、自然声音、音乐等)和文本输入,并输出文本结果。其核心功能不仅限于语音转文字,还包括语义理解、情感分析、音频事件检测以及语音聊天等能力。

具体来说: 1. 语音识别部分:Qwen-Audio 的语音识别能力是基于 Qwen-Audio 训练的专有模型,而非使用 Whisper。例如,通义千问 ASR 是基于 Qwen-Audio 训练的语音识别模型,支持中英文识别,并且在 Beta 版本中提供服务。 2. 后续处理部分:Qwen-Audio 不仅将语音转换为文本,还进一步对音频内容进行深层次的理解和分析,例如说话人的情绪、意图、性别、年龄段等信息的提取。这表明其处理流程并非简单依赖外部模型(如 Whisper)完成语音转文字后交由通义千问处理,而是通过一体化的模型架构实现端到端的音频理解和处理。

此外,Qwen-Audio 提供了多个版本的模型,例如 qwen-audio-turbo-latestqwen-audio-asr 等,这些模型均针对不同的应用场景进行了优化,例如高精度语音识别、多语言支持、情感辨识等。

总结:Qwen-Audio 是一个独立的音频语言模型,其语音识别和后续处理能力完全基于阿里云自研技术,与 Whisper 无关。它通过一体化的设计实现了从语音识别到语义理解的全流程处理。

有帮助
无帮助
AI 助理回答生成答案可能存在不准确,仅供参考
0 条回答
写回答
取消 提交回答

包含命名实体识别、文本分类、分词、关系抽取、问答、推理、文本摘要、情感分析、机器翻译等多个领域

热门讨论

热门文章

还有其他疑问?
咨询AI助理