modelscope-funasr的Qwen-Audio是把Whisper作为语音识别，然后处理吗？

modelscope-funasr的Qwen-Audio 这个项目是把 Whisper 作为语音识别，然后用通义千问处理识别结果吗？

展开

收起

三分钟热度的鱼 2024-02-01 16:40:43 270 版权

阿里云 AI 助理回答

Qwen-Audio 并未使用 Whisper 作为语音识别模型，而是基于阿里云自研的 Qwen-Audio 模型进行语音识别和处理。

根据知识库资料，Qwen-Audio 是一个专用于音频理解的大规模语言模型，能够接收多种音频（包括人类语音、自然声音、音乐等）和文本输入，并输出文本结果。其核心功能不仅限于语音转文字，还包括语义理解、情感分析、音频事件检测以及语音聊天等能力。

具体来说： 1. 语音识别部分：Qwen-Audio 的语音识别能力是基于 Qwen-Audio 训练的专有模型，而非使用 Whisper。例如，通义千问 ASR 是基于 Qwen-Audio 训练的语音识别模型，支持中英文识别，并且在 Beta 版本中提供服务。 2. 后续处理部分：Qwen-Audio 不仅将语音转换为文本，还进一步对音频内容进行深层次的理解和分析，例如说话人的情绪、意图、性别、年龄段等信息的提取。这表明其处理流程并非简单依赖外部模型（如 Whisper）完成语音转文字后交由通义千问处理，而是通过一体化的模型架构实现端到端的音频理解和处理。

此外，Qwen-Audio 提供了多个版本的模型，例如 qwen-audio-turbo-latest 和 qwen-audio-asr 等，这些模型均针对不同的应用场景进行了优化，例如高精度语音识别、多语言支持、情感辨识等。

总结：Qwen-Audio 是一个独立的音频语言模型，其语音识别和后续处理能力完全基于阿里云自研技术，与 Whisper 无关。它通过一体化的设计实现了从语音识别到语义理解的全流程处理。

有帮助

无帮助

AI 助理回答生成答案可能存在不准确，仅供参考

0 条回答

写回答