我们测试发现基于modelscope-funasr推理服务,部署在windows上可支持mp3格式的语音识别,部署在linux上就识别不了mp3格式音频,您有遇到过这个情况吗?
确实有用户遇到过类似情况,在Windows上可以识别mp3格式的音频,而在Linux上则无法识别。
这个问题可能是由于在Linux系统上缺少必要的依赖库导致的。在语音识别领域中,一些模型会依赖于三方库SoundFile来处理wav文件。在Windows和MacOS系统上,这些依赖库通常会在安装过程中自动安装,但在Linux系统上,用户需要手动进行安装。
此外,如果您在Linux系统上遇到无法识别mp3格式音频的问题,建议检查是否已经安装了libsndfile库。如果没有安装,您可以按照以下步骤进行安装:
sudo apt-get update
sudo apt-get install libsndfile1
在Linux系统上部署ModelScope-Funasr推理服务时,无法识别MP3格式的音频,以下是一些可能的原因:
为了解决这个问题,您可以尝试以下几个步骤:
综上所述,在Linux 系统上部署 ModelScope-Funasr 推理服务时,无法识别 MP3 格式的音频,可能是由于依赖库问题、环境配置差异、文件路径问题、权限问题或工具版本问题所致。如果以上方法仍然无法解决问题,建议查阅ModelScope-Funasr的官方文档或社区支持,以获取更具体的帮助。
是torchaudio版本问题,你可以去测试一下。如果torchaudio版本无法更换,你可以在外面包一个逻辑,先把mp3处理成wav采样点,再去推理。此回答整理自钉群“modelscope-funasr社区交流”