达摩院FunASR离线文件转写SDK发布,完成工业落地“最后一公里”

简介: 达摩院FunASR离线文件转写SDK发布,完成工业落地“最后一公里”

FunASR是由达摩院语音实验室开源的一款语音识别基础框架,集成了语音端点检测、语音识别、标点断句等领域的工业级别模型,吸引了众多开发者参与体验和开发。为了实现工业落地的最后一公里,我们开发了FunASR runtime-SDK,方便开发者高效、便捷地进行语音识别服务部署。


离线转写

力献语音识别全链路工业级模型


FunASR runtime-SDK提供了一款功能强大的语音离线文件转写开源工具,可以高精度、高效率、高并发(>100)的支持长音频离线转写。该SDK结合了达摩院语音实验室在Modelscope社区开源的语音端点检测、语音识别、标点等模型,支持模型的ONNX导出与量化,并提供了可方便快捷的部署到本地或者云端服务器的一键化部署脚本。开发者可以基于该SDK,便捷的构建高精度、高并发、高效率的离线文件转写服务。


99ef08daba9f8be641e3d6ff86f16951.png

四大优势

便捷、高精度、高效率、长音频链路


便捷部署我们提供了一键部署FunASR runtime-SDK的方案,通过funasr-runtime-deploy-offline-cpu-zh.sh可一键完成docker安装、镜像启动、服务部署,详见FunASR离线文件转写服务便捷部署教程👇:


https://github.com/alibaba-damo-

academy/FunASR/blob/main/funasr/runtime/docs/SDK_tutorial_zh.md


高精度


FunASR runtime-SDK集成了达摩院语音实验室在ModelScope开源数据训练的工业级语音识别模型Paraformer-large,保证了端到端转写效果的精度。

下方表格对比了Paraformer-large与当前最优SOTA模型识别效果:



集成了Paraformer-large模型的阿里云语音识别服务API,在三方评测榜单SpeechIO最新6月评测中取得了SOTA效果。详情见 SpeechIO Leaderboard。

https://mp.weixin.qq.com/s/eAgvlgwLqWQ9CQRRduUmtg


高推理效率


FunASR runtime-SDK中的语音端点检测(VAD)、语音识别(ASR)、标点断句(PUNC)模型均通过onnx 量化导出实现推理加速,其中ASR模型为基于Paraformer的非自回归模型,相比于目前普遍采用的自回归模型具有明显的推理效率优势,可同时支持多线并发,可以准确、高效地对音频进行转写。


我们采用AISHELL-1测试集测试了FunASR runtime-SDK的转写加速比,CPU8369B上的吞吐率为562。不同配置下的详细吞吐率指标如下表:


Intel(R) Xeon(R) Platinum 8369B CPU @ 2.90GHz 16core-32processor with avx512_vnni



更多详细结果见

benchmark: https://github.com/alibaba-damo-academy/FunASR/blob/main/funasr/runtime/docs/benchmark_onnx_cpp.md


长音频链路


FunASR runtime-SDK提供了一套完整的语音识别链路,包括语音端点检测(VAD)、语音识别(ASR)、标点断句(PUNC),可用于高效转写长音频,用户可以无需进行二次开发


我们在一个长音频测试集上(时长为0~24min)分别对asr链路、vad+asr+punc链路进行了测试,asr链路在并发32线时会OOM,vad+asr+punc链路的吞吐率为334,相比asr链路有明显优势。不同配置下的详细吞吐率指标如下表:


Intel(R) Xeon(R) Platinum 8369B CPU @ 2.90GHz 16core-32processor with avx512_vnni



使用指南

精简操作,即刻安装


FunASR runtime-SDK当前已开源。

开源工具包地址👇:

https://github.com/alibaba-damo-academy/FunASR/blob/main/funasr/runtime/readme_cn.md

步骤如下:

第一步:下载安装部署工具

curl-Ohttps://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/shell/funasr-runtime-deploy-offline-cpu-zh.sh;


第二步:安装部署

sudobashfunasr-runtime-deploy-offline-cpu-zh.shinstall--workspace ./funasr-runtime-resources


第三步:测试与使用


运行上面安装指令后,会在./funasr-runtime-resources下载samples, 为客户端测试工具,支持python/c++/java/html网页等语言。我们以Python语言客户端为例,进行说明,支持多种音频格式输入(.wav, .pcm, .mp3等),也支持视频输入(.mp4等),以及多文件列表wav.scp输入以下代码:


python3wss_client_asr.py--host"127.0.0.1"--port10095--modeoffline--audio_in"../audio/asr_example.wav"


运行上面客户端指令后,即可对音频进行识别转写。同时我们在云端部署了FunASR runtime-SDK服务,用户可以直接在浏览器中进行体验:

https://101.37.77.25:1336/static/index.html


FunASR-runtime-SDK背后的语音技术:

开源|业界首个应用落地的非自回归端到端语音识别模型,推理效率可提升10倍

ICASSP2023|达摩院语音实验室入选论文全况速览

特别致谢

与开发者们共力同工奔赴开源未来


FunASR-runtime-SDK归属于FunASR开源项目。在项目开源过程中,众多志同道合的社区开发者们参与进来,与我们共同努力,共享知识、互相支持,形成一种紧密的合作关系,推动着开源项目的发展。在此特别感谢:北京理工大学马勇、上海电信朱云峰、爱医声赵明、个人开发者张旭、个人开发者黄明明等。


联系我们

欢迎对识别模型开源和应用感兴趣的研究人员和开发人员加入Fun-ASR开源社区交流群,共同探讨精进!


相关实践学习
一键创建和部署高分电影推荐语音技能
本场景使用天猫精灵技能应用平台提供的技能模板,在2-5分钟内,创建一个好玩的高分电影推荐技能,使用模板后无须代码开发,系统自动配置意图、实体等,新手0基础也可体验创建技能的乐趣。
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
3月前
|
弹性计算 Java API
阿里云OpenAPI的依赖文件通常在阿里云官方文档或者SDK的GitHub仓库中可以找到
【1月更文挑战第5天】【1月更文挑战第21篇】 阿里云OpenAPI的依赖文件通常在阿里云官方文档或者SDK的GitHub仓库中可以找到
99 1
|
8月前
|
开发工具 对象存储 Python
使用Python的SDK从OSS中下载指定日期的所有文件
使用Python的SDK从OSS中下载指定日期的所有文件
210 1
|
Java 语音技术 开发工具
Android 讯飞离线语音听写/离线语音识别SDK
Android 讯飞离线语音听写/离线语音识别SDK
391 0
Android 讯飞离线语音听写/离线语音识别SDK
|
6月前
|
开发工具
视觉智能平台的美颜美型离线sdk,能完全离线吗
视觉智能平台的美颜美型离线sdk,能完全离线吗
|
10月前
|
前端开发 算法 Java
使用虹软SDK实现离线人脸注册,人脸登录(H5-JS前端,java后台)
一开始找人脸识别的第三方接口,选择了百度,就是发请求给百度的接口,解析人家返回的数据。
|
人工智能 安全 API
福利来袭——0.1元体验一个月——服务端人脸识别离线SDK!!!
阿里云视觉智能开放平台服务端人脸识别离线SDK上线,0.1元体验一个月。
382 0
福利来袭——0.1元体验一个月——服务端人脸识别离线SDK!!!
|
人工智能 算法 语音技术
|
人工智能 文字识别 开发工具
阿里云视觉智能开放平台离线人脸识别SDK开启邀测啦
阿里云视觉智能开放平台离线人脸识别SDK开启邀测,端侧SDK是一套完整的包含高性能检测、鲁棒性识别、多规格活体以及高速比对等功能的人脸识别全链路SDK。应用了多项顶会论文以及核心专利技术,在受限端侧计算资源下具备速度快、精度高等特点,典型应用场景有门禁、考勤等,注册好后可在无网条件下使用。端侧SDK支持Android、IOS终端系统。
456 0
阿里云视觉智能开放平台离线人脸识别SDK开启邀测啦
|
开发工具 对象存储 git
python通过sdk从minio下载文件时添加进度条
Minio是就地环境下比较好用的对象存储工具,适合在CI/CD流程中使用。主要是因为GIT里用LFS来放大文件不妥,把部署流程中需要的中间文件放minio上,通过SDK去存取文件非常方便。 Minio的上传文件fput_object有progress参数,但是下载文件fget_object默认没有 progress 参数,所以我们需要自己用get_object对代码稍加改造,把下载流和进度条结合在一起
1162 0
python通过sdk从minio下载文件时添加进度条
|
机器学习/深度学习 人工智能 文字识别
公告:人脸,文字识别,分割抠图离线SDK正式上线
阿里云视觉智能开放平台正式开放了离线SDK的下载,可部署在Android,iOS,Windows,Osx等系统,并且支持根据上层业务需求进行定制开发,完全离网,欢迎使用~