modelscope-funasr底层用什么读取音频文件的?能支持mp4这些格式吗?
关于modelscope-funasr底层如何读取音频文件以及是否支持mp4格式,没有直接提供具体的技术细节。不过通常情况下,语音识别模型处理的音频文件会先经过预处理步骤,将非PCM或WAV格式的音频(如mp4中的音频流)解码并提取出来,转换成模型可以直接处理的格式。
torchaudio,代码在这里:
https://github.com/alibaba-damo-academy/FunASR/blob/main/funasr/utils/load_utils.py#L19C5-L19C32 ,此回答整理自钉群“modelscope-funasr社区交流”