备案控制台

开发者社区 ModelScope模型即服务语音正文

使用Paraformer 最新版本，按照官方文档执行报错

执行代码如下：

from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks


p = pipeline('auto-speech-recognition', 'damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch')


rec_result = p(audio_in='zh_test.wav')

print(rec_result)

报错信息：

/opt/conda/lib/python3.7/site-packages/torchaudio/compliance/kaldi.py in _get_window(waveform, padded_window_size, window_size, window_shift, window_type, blackman_coeff, snip_edges, raw_energy, energy_floor, dither, remove_dc_offset, preemphasis_coefficient)
    175 
    176     # size (m, window_size)
--> 177     strided_input = _get_strided(waveform, window_size, window_shift, snip_edges)
    178 
    179     if dither != 0.0:

/opt/conda/lib/python3.7/site-packages/torchaudio/compliance/kaldi.py in _get_strided(waveform, window_size, window_shift, snip_edges)
     57         Tensor: 2D tensor of size (m, ``window_size``) where each row is a frame
     58     """
---> 59     assert waveform.dim() == 1
     60     num_samples = waveform.size(0)
     61     strides = (window_shift * waveform.stride(0), waveform.stride(0))

AssertionError:

展开

收起

little_ant0 2023-02-10 10:35:43 837 版权

1 条回答

写回答

取消提交回答

little_ant0

已解决，要求.wav文件16kHz

2023-02-10 14:51:51

赞同展开评论

相关问答

this xml file does not appear to have any style in

49604

10

0

通过www和不带www的网址输入最终都指向www.我的域名.com，求指教

128938

28

0

请问下我访问接口不通什么原因 Provisional headers are shown

2414

0

0

购买阿里国外的云服务器是否可以访问谷歌？

81509

47

0

手机弹出支付风险问题

6572

2

0

OSS的endpoint如何查看

36658

6

0

配置了安全组规则，端口还是无法访问

32601

25

0

sql server的用户名和密码怎么查啊？

36091

21

0

计算机网络的频带传输是什么意思？

1697

1

0

域名在腾讯云备案成功，解析到阿里云服务器，提示仍需备案？

59888

30

0

ModelScope模型即服务

语音

包括语音识别、语音合成、语音唤醒、声学设计及信号处理、声纹识别、音频事件检测等多个领域

我要提问

收录在圈子:

智能语音交互

167

+ 订阅

相关文章

【切负荷】计及切负荷和直流潮流(DC-OPF)风-火-储经济调度模型研究【IEEE24节点】(Python代码实现)

免费版的配音软件，支持童声男声女声不同声音选项，语音转文字软件推荐支持多种声音

【语音识别】基于K近邻分类算法的语音情感识别（Matlab代码实现）

面向能效和低延迟的语音控制智能家居：离线语音识别与物联网集成方案——论文阅读

基于MFCC（梅尔频率倒谱系数）和GMM（高斯混合模型）的语音识别

热门讨论

热门文章

关于 Windows平台上 ttsfrd 库的问题。

modelscope上跑报错，提示要pip install ttsfrd，搞不定

目录空间都删的只剩2G了，还报OSError: [Errno 122] Disk quota exc

魔搭modelscope按官方文档安装音频环境失败

能生成srt文件吗？

KeyError: 'asr-inference is not in the pipelines r

modelscope衍生品的版权问题

语音唤醒可以自定义唤醒词嘛？比如“小云，小云”换成自己的命令词？如何训练模型

模型finetune过程中训练文本的英文如何处理？

SambertHifigan个性化语音合成-中文-预训练-16k 语速太快了怎么设置慢一点

展开全部

Dolphin：40语种+22方言！清华联合海天瑞声推出的语音识别大模型，识别精度超Whisper两代

TIGER：清华突破性模型让AI「听觉」进化：参数量暴降94%，菜市场都能分离清晰人声

FireRedASR：精准识别普通话、方言和歌曲歌词！小红书开源工业级自动语音识别模型

3D-Speaker：阿里通义开源的多模态说话人识别项目，支持说话人识别、语种识别、多模态识别、说话人重叠检测和日志记录

CosyVoice 2.0：阿里开源升级版语音生成大模型，支持多语言和跨语言语音合成，提升发音和音色等的准确性

三行代码实现实时语音转文本，支持自动断句和语音唤醒，用 RealtimeSTT 轻松创建高效语音 AI 助手

WhisperChain：开源 AI 实时语音转文字工具！自动消噪优化文本，效率翻倍

EmotiVoice：网易开源AI语音合成黑科技，2000+音色情感可控

百聆：集成Deepseek API及语音技术的开源AI语音对话助手，实时交互延迟低至800ms

AI终于能听懂宝宝说话了！ChildMandarin：智源研究院开源的低幼儿童中文语音数据集，覆盖22省方言

展开全部

还有其他疑问?