modelscope-funasr的Qwen-Audio 这个项目是把 Whisper 作为语音识别,然后用通义千问处理识别结果吗?
Qwen-Audio 并未使用 Whisper 作为语音识别模型,而是基于阿里云自研的 Qwen-Audio 模型进行语音识别和处理。
根据知识库资料,Qwen-Audio 是一个专用于音频理解的大规模语言模型,能够接收多种音频(包括人类语音、自然声音、音乐等)和文本输入,并输出文本结果。其核心功能不仅限于语音转文字,还包括语义理解、情感分析、音频事件检测以及语音聊天等能力。
具体来说: 1. 语音识别部分:Qwen-Audio 的语音识别能力是基于 Qwen-Audio 训练的专有模型,而非使用 Whisper。例如,通义千问 ASR 是基于 Qwen-Audio 训练的语音识别模型,支持中英文识别,并且在 Beta 版本中提供服务。 2. 后续处理部分:Qwen-Audio 不仅将语音转换为文本,还进一步对音频内容进行深层次的理解和分析,例如说话人的情绪、意图、性别、年龄段等信息的提取。这表明其处理流程并非简单依赖外部模型(如 Whisper)完成语音转文字后交由通义千问处理,而是通过一体化的模型架构实现端到端的音频理解和处理。
此外,Qwen-Audio 提供了多个版本的模型,例如 qwen-audio-turbo-latest
和 qwen-audio-asr
等,这些模型均针对不同的应用场景进行了优化,例如高精度语音识别、多语言支持、情感辨识等。
总结:Qwen-Audio 是一个独立的音频语言模型,其语音识别和后续处理能力完全基于阿里云自研技术,与 Whisper 无关。它通过一体化的设计实现了从语音识别到语义理解的全流程处理。