modelscope-funasr使用demo1 报这个了，怎么解决？

modelscope-funasr使用demo1 报这个了，怎么解决？ lQLPKHvESOBwbg_NAdfNBRuwbyEWDuX-NSIGgsjtCIX-AA_1307_471.png
lQLPJyEGgr9cvI_M0s0CGrAVeASOv7rlsgaCyaswYowA_538_210.png
我试了一下在demo1中将vad的参数取消，发现还是会报AssertionError: choose a window size 400 that is [2, 0] 这个错

展开

收起

三分钟热度的鱼 2024-07-24 20:46:10 305 版权

阿里云 AI 助理回答

根据您提供的错误信息 AssertionError: choose a window size 400 that is [2, 0]，结合知识库中的相关资料，以下是问题的分析与解决方法：

问题分析

错误原因
该错误表明在使用 ModelScope-FunASR 的 demo1 时，语音处理模块（如 VAD，Voice Activity Detection）中设置的窗口大小（window size）不符合预期。具体来说，窗口大小为 400，但系统要求其满足某些约束条件 [2, 0]，这可能与音频采样率、帧长或帧移参数不匹配有关。
VAD 参数取消后仍报错
即使取消了 VAD 参数，错误依然存在，说明问题可能不仅限于 VAD 模块，而是与底层音频处理逻辑（如特征提取或分帧操作）相关。
FunASR 的依赖环境
根据知识库资料，FunASR 是一个基于 PyTorch 的语音合成工具包，其安装和运行需要满足以下条件：
- Python 版本需为 3.7 或更高。
- 需正确安装 PyTorch 和其他依赖包。
- 确保模型和代码版本一致。

解决方案

步骤 1：检查音频输入参数

确认音频采样率
FunASR 对输入音频的采样率有严格要求，通常为 16kHz。如果输入音频的采样率不符合要求，请使用工具（如 ffmpeg 或 sox）将其转换为 16kHz。
```
ffmpeg -i input_audio.wav -ar 16000 output_audio.wav
```
检查帧长和帧移参数
窗口大小（window size）通常与帧长（frame length）和帧移（frame shift）相关。确保这些参数与模型配置文件中的默认值一致。例如：
- 帧长：25ms
- 帧移：10ms
如果需要修改这些参数，请在代码中找到对应的配置文件并调整。

步骤 2：更新 FunASR 和依赖包

重新安装 FunASR
根据知识库资料，确保 FunASR 已正确安装。如果之前安装存在问题，建议重新安装：
```
pip install -r requirements.txt
pip install funasr[clip]
```
验证安装是否成功
执行以下命令验证 FunASR 是否安装成功：
```
python -c "import funasr.utils.cli_utils; funasr.utils.cli_utils.print_info()"
```
如果安装成功，将显示一条消息，表明 FunASR 已正确安装。

步骤 3：检查模型配置

确认模型版本
确保使用的模型版本与代码版本一致。如果模型是从 ModelScope 下载的，请检查 MODEL_ID 和 REVISION 是否正确配置。例如：
```
MODEL_ID = "damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch"
REVISION = "v1.0.0"
```
检查配置文件
在 FunASR 的配置文件中，查找与窗口大小相关的参数（如 win_length 和 hop_length），并确保其值符合模型要求。例如：
```
win_length: 400
hop_length: 160
```

步骤 4：调试代码

定位错误代码
根据错误信息，定位到抛出 AssertionError 的代码行。通常，这类错误出现在特征提取模块（如 librosa 或 torchaudio）。检查相关代码，确保窗口大小和步长参数符合预期。
临时解决方案
如果无法立即修复，可以尝试注释掉引发错误的断言代码（仅用于调试目的）。例如：
```
# assert win_size in [2, 0], f"choose a window size {win_size} that is [2, 0]"
```