备案控制台

开发者社区 ModelScope模型即服务计算机视觉正文

ModelScope语音识别模型可以传入二进制数据传入返回数据不对应，怎么偶尔也有单个字的返回？

ModelScope语音识别模型可以传入二进制数据传入返回数据不对应，怎么偶尔也有单个字的返回？
https://modelscope.cn/models/damo/speech_UniASR_asr_2pass-zh-cn-16k-common-vocab8358-tensorflow1-online/comment!
iwEcAqNwbmcDAQTRBq4F0QFCBrAqxc9vCZvZcATTfYSegN8BB9IWM05jCAAJomltCgAL0gAGhes.png_720x720q90.jpg
iwEcAqNwbmcDAQTRAkQF0QDQBrBbOvuMlipQPgTTfYSegN8AB9IWM05jCAAJomltCgAL0gABa8A.png_720x720q90.jpg

展开

收起

青城山下庄文杰 2023-08-19 08:53:26 150 版权

1 条回答

写回答

取消提交回答

清风拂袖

您好，ModelScope 的语音识别模型能够对音频文件进行识别，并将其转换为文本。如果您在输入二进制数据时遇到问题，请尝试以下方法：

确保您使用的是正确的二进制格式。语音识别模型只支持 wav 格式的数据。
确保您使用的是正确的音频采样率。语音识别模型只支持 16KHz 的音频采样率。
确保您使用的是正确的音频编码。语音识别模型只支持 16 位线性 PCM 编码。
尝试使用其他语音识别模型。如果您仍然遇到问题，请尝试使用其他语音识别模型。
如果您还有其他问题，请随时联系我们。

2023-09-21 10:21:21

赞同展开评论

相关问答

modelscope-funasr的Sensevoice的数据准备特别慢是什么原因呢？

173

0

0

modelscope-funasr的实时语音识别支持的并发数在哪里可以看？

470

1

0

在modelscope-funasr用的paraformer的一个语音识别模型，怎么加上热词？

360

0

0

modelscope-funasr实时流模式，对音频pcm的数据要求是什么呢？

394

0

0

modelscope-funasr的多说话人语音识别模型支持实时听写吗？

255

0

0

modelscope-funasr实时识别，发送的流数据，一次喂好长的数据过去比较好？

97

0

0

modelscope-funasr中如果用10小时数据做微调， 2张T4的卡，大概耗时多久？

202

1

0

我使用modelscope进行语音识别时很慢。

629

0

0

阿里语音AI问什么语音转文字，多少录音都转不出来呢？

176

0

0

阿里云语音AI智能语音交互下面的cosyvoice大模型可以免费试用吗？

436

1

0

ModelScope模型即服务

计算机视觉

包含图像分类、图像生成、人体人脸识别、动作识别、目标分割、视频生成、卡通画、视觉评价、三维视觉等多个领域

我要提问

相关文章

AI 英语学习智能体的开发

免费智能客服系统有哪些？智能客服系统推荐

📢 我们发布了新一代端到端语音交互模型 Fun-Audio-Chat！

校园接待机器人技术深度解析与主流解决方案评测

校园服务机器人关键技术解析与选型

热门讨论

热门文章

我希望通过damo-YOLO训练1500*1500的图片

ModelScope中，模型下载默认路径在哪个路径？

如何下载modelscope模型？

ModelScope下载速度慢怎么解决？

创业项目：AI 拟人化中层解决方案

ModelScope有没有人知道windows安装ttsfrd的方法或者ttsfrd源码？

com/action/joingroup?code=v1是什么意思

modelscope这个下载有点慢呀，好几次都超时了，怎么解决？

服务器上onnxruntime-gpu 调用结束，如何释放显存

在ModelScope中，下载模型时的ssl问题怎么解决？!

展开全部

Qwen2.5-VL：阿里通义千问最新开源视觉语言模型，能够理解超过1小时的长视频

video-analyzer：开源视频分析工具，支持提取视频关键帧、音频转录，自动生成视频详细描述

RF-DETR：YOLO霸主地位不保？开源 SOTA 实时目标检测模型，比眨眼还快3倍！

PSHuman：开源单图像3D人像重建技术，一张照片就能生成3D人像模型

LHM：单图生成3D动画人！阿里开源建模核弹，高斯点云重构服装纹理

X-AnyLabeling：开源的 AI 图像标注工具，支持多种标注样式，适于目标检测、图像分割等不同场景

STAR：南京大学联合字节开源视频超分辨率增强生成框架，视频清晰度一键提升，支持从低分辨率视频生成高分辨率视频

UI-TARS：字节跳动开源专注于多平台 GUI 自动化交互的视觉语言模型

SmartEraser：中科大推出图像对象移除技术，轻松移除照片中的不想要元素，保留完美瞬间

InvSR：开源图像超分辨率生成模型，提升分辨率，修复老旧照片为超清图像

展开全部

还有其他疑问?