备案控制台

开发者社区 > ModelScope模型即服务 > 语音 > 正文

请问一下pipeline推理语音识别时候支持最大语音是多少kb的？

我在使用pipeline测试语音识别，使用的是damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch，请问该模型支持最大语音长度是多少？

展开

收起

游客vpclpbddmbwso 2023-01-31 15:43:56 804 0

2 条回答

写回答

取消提交回答

游客yyuon7u7y35mg

您好，damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch模型推荐输入语音时长在20s以下，若想解码长音频，可以使用damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch模型，该模型集成VAD、ASR、标点与时间戳功能，可直接对时长为数小时音频进行识别，并输出带标点文字与时间戳。欢迎加入我们的钉钉交流群（27215013275）进行讨论~

2023-02-07 15:53:47

赞同展开评论打赏
申公豹

例如aac，64位，双通道，则对于交错模式最大为：linesize = 2 x 1024 x 8 = 16384。此时也是 … 对于平面模式最大为：linesize = 1024 x 8 = 8192，平面模式时会有多个平面通道，例data [0] 这里是字节，转换为kb

2023-01-31 18:46:37

赞同展开评论打赏

相关问答

阿里巴巴语音实验室提出的SAN-M网络结构和流式Attention机制在语音识别中起到了什么作用？

40

1

0

阿里云语音AI语音合成语音识别私有化部署如何操作？

50

0

0

阿里云语音AI智能语音交互下面的cosyvoice大模型可以免费试用吗？

105

1

0

在阿里云语音AI中免费测试账号，上传音频文件，点语音识别，不出结果呀?

45

0

0

通义语音实验室提出的Paraformer语音识别声学模型有哪些主要特点和优势？

125

1

0

智能语音交互长文本语音是否限制300字符

26

1

0

阿里语音AI现在调用录音语音识别,报错？400错误是什么意思？

55

2

0

阿里语音AI本地部署语音识别怎么收费的？

40

0

0

智能语音交互ASR支持语音音量识别吗

43

1

0

阿里云语音AI小时的统计是连接建立开始算吗，还是只算语音识别过程的？

28

1

0

ModelScope模型即服务

语音

包括语音识别、语音合成、语音唤醒、声学设计及信号处理、声纹识别、音频事件检测等多个领域

我要提问

相关产品

智能语音交互

文档详情产品详情

热门讨论

热门文章

modelscope上跑报错，提示要pip install ttsfrd，搞不定

关于 Windows平台上 ttsfrd 库的问题。

KeyError: 'asr-inference is not in the pipelines r

linux系统运行TTS语音合成报错 Could not initialize NNPACK

ttsfrd 是不开源的吗

PyTorch Transformer 英中翻译超详细教程

目录空间都删的只剩2G了，还报OSError: [Errno 122] Disk quota exc

No module named 'ttsfrd'

个性化语音合成训练 [ONNXRuntimeError]:7:INVALID_PROTOBUF

报了很多警告，请问怎么解决？

展开全部

KAN-TTS 在 conda 环境下无法安装 ttsfrd

使用开源的模型（像speech_sambert-hifigan_tts_zhida_zh-cn_16k）进行语音合成任务的推理时，推理速度太慢了，500字大约需要1分钟，为什么会这么慢

同一个语音为什么识别结果还不一致的，有大佬知道原因吗（Paraformer语音识别-中文-通用-16k-离线-large-热词版）

kws_util 下载不了

ModelScope官方镜像，CPU环境镜像(python3.8)pull不存在

展开全部

相关课程

更多

达摩院智能语音交互 - 人机对话技术浅析

149

4

去学习

达摩院智能语音交互 - 声纹识别技术

2859

4

去学习

阿里巴巴智能语音交互技术与应用

7232

7

去学习

达摩院智能语音交互 - 语音识别技术

303

4

去学习

达摩院智能语音交互 - 语音合成技术

578

4

去学习

相关电子书

更多

阿里云总监课第二期——Neural Network Language Model在语音识别中的应用 立即下载

阿里云总监课第二期——Latency Controlled-BLSTM模型在语音识别中的应用 立即下载

智能语音交互：阿里巴巴的研究与实践 立即下载