文档备案控制台

开发者社区 ModelScope模型即服务计算机视觉正文

ModelScope中UniASR语音识别-中文方言-通用-16k-离线这个有人用过吗？

ModelScope中UniASR语音识别-中文方言-通用-16k-离线这个有人用过吗？

展开

收起

真的很搞笑 2024-01-02 20:17:48 631 版权

2 条回答

写回答

取消提交回答

小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。

UniASR语音识别-中文方言-通用-16k-离线是达摩院推出的一款语音识别模型，该模型通过2遍刷新（Two pass）的端到端架构设计，能够有效处理不同业务场景的需求。具体来说，这个模型具有高计算效率和优秀的识别效果，是一种非自回归的端到端语音识别模型。

此外，UniASR长音频版本模型支持输出字级别时间戳，可以对时长为数小时的音频进行识别，并输出带标点文字与时间戳。与此同时，此模型还集成了VAD（Voice Activity Detection，语音活动检测）功能，能够有效检查长语音片段中有效语音的起止时间点。这种优化使得该模型在日益丰富的业务需求下，不仅能够保持高的识别精度，而且能够实时地进行语音识别。

因此，对于需要进行大规模、高精度且实时的语音识别处理的业务场景，UniASR语音识别-中文方言-通用-16k-离线无疑是一个值得尝试的选择。

2024-01-03 13:35:26

赞同展开评论
芯在这

有用过的，另外funasr群您也可以关注下。
语音识别相关问题，请进ModelScope-FunASR答疑群，每天下午3点到5点，有人值班答疑：

https://qr.dingtalk.com/action/joingroup?code=v1,k1,HvfUn46BPlI4YY96NXjQtI3lTjsgC6R8oCxB+kbE5RI=&_dt_no_comment=1&origin=11? 游雁邀请你加入钉钉群聊modelscope-funasr社区交流，点击进入查看详情，此回答整理自钉群“魔搭ModelScope开发者联盟群 ①”

2024-01-02 23:07:23

赞同展开评论

相关问答

在4卡4090（24G）服务器上利用modelscope离线部署Qwen2vl-Flux时报错

495

1

0

modelscope-funasr的实时语音识别支持的并发数在哪里可以看？

607

1

0

modelscope-funasr离线版的翻译返回的时间戳是一句话的结束时间吗？

359

0

0

modelscope-funasr这个能不能离线部署？

295

0

0

modelscope-funasr的语音情感识别，如何离线部署？

302

0

0

在modelscope-funasr用的paraformer的一个语音识别模型，怎么加上热词？

500

0

0

如何用python 加载ModelScope中的模型

770

1

0

在modelscope-funasr换了带时间戳的模型但是语音转出来的结果为什么没有时间戳呢？

435

0

0

ModelScope里我去微调模型，训练完成的模型会出现以下两种问题，怎么解决？

417

0

0

modelscope-funasr的vad模型对输入的语音长度是不是有最短时长的要求？

354

0

0

ModelScope模型即服务

计算机视觉

包含图像分类、图像生成、人体人脸识别、动作识别、目标分割、视频生成、卡通画、视觉评价、三维视觉等多个领域

我要提问

相关文章

阿里云百炼Token Plan深度解析：Credits规则、AI模型矩阵及免费Tokens获取攻略

一线城市呼叫中心系统架构设计与集成实践：从延迟优化到混合云落地

AI智能体的开发流程

AI 技术在英语教育中的应用

AI英语教育产品的开发与上线

热门讨论

热门文章

ModelScope中，模型下载默认路径在哪个路径？

com/action/joingroup?code=v1是什么意思

ModelScope镜像地址是什么？

ModelScope下载速度慢怎么解决？

ModelScope中，灵积模型服务怎么看账单比如如何看我的免费token额度还剩下多少?

ModelScope这个免费额度可以在哪里查询啊？

modelscope cache 环境变量是啥？

【DCT-Net人像卡通化】生成图像颜色诡异暗青色

在ModelScope中，下载模型时的ssl问题怎么解决？!

请问去哪里找ModelScope里面各个模型的id？

展开全部

video-subtitle-remover（VSR）--开源AI去字幕方案深度解析

Qwen2.5-VL：阿里通义千问最新开源视觉语言模型，能够理解超过1小时的长视频

极致的显存管理！6G显存运行混元Video模型

LHM：单图生成3D动画人！阿里开源建模核弹，高斯点云重构服装纹理

X-AnyLabeling：开源的 AI 图像标注工具，支持多种标注样式，适于目标检测、图像分割等不同场景

CogVideoX-Flash：智谱首个免费AI视频生成模型，支持文生视频、图生视频，分辨率最高可达4K

EchoMimicV2：阿里推出的开源数字人项目，能生成完整数字人半身动画

CogView-3-Flash：智谱首个免费AI图像生成模型，支持多种分辨率，快速生成创意图像

Step-Video-TI2V：开源视频生成核弹！300亿参数+102帧电影运镜

AniDoc：蚂蚁集团开源 2D 动画上色 AI 模型，基于视频扩散模型自动将草图序列转换成彩色动画，保持动画的连贯性

展开全部

还有其他疑问?