本文来源:阿里云语音AI
FunASR是由阿里巴巴智能计算研究院语音实验室开源的语音识别框架,集成了语音端点检测、语音识别、标点预测等领域的工业级模型的训练和部署,吸引了众多开发者参与体验和开发。
今年7月初,FunASR开源社区发布了离线文件转写软件包,实现了高精度、高效率、高并发的长音频离线文件转写,并在8月份发布了支持实时语音听写软件包,既可以实时地进行语音转文字,而且能够在说话句尾用高精度的转写文字修正输出。
本月,应社区用户的需求与反馈,FunASR特推出英文离线文件转写软件包。该软件包结合了阿里巴巴智能计算研究院语音实验室在Modelscope社区开源的语音端点检测、语音识别、标点断句等模型,支持模型的ONNX导出与量化,并提供了可方便快捷的部署到本地或者云端服务器的一键化部署脚本。开发者可以基于该软件包,便捷地构建高精度、高并发、高效率的英文离线文件转写服务。
图1 FunASR英文离线文件转写服务架构图
最新发布,体验下载👉FunASR英文离线文件转写软件包:
https://github.com/alibaba-damo-academy/FunASR/blob/main/funasr/runtime/docs/SDK_tutorial_en_zh.md
(8月发布)FunASR实时语音听写软件包:https://github.com/alibaba-damo-academy/FunASR/blob/main/funasr/runtime/docs/SDK_tutorial_online_zh.md
(7月发布)FunASR离线文件转写软件包:https://github.com/alibaba-damo-academy/FunASR/blob/main/funasr/runtime/docs/SDK_tutorial_zh.md
▎英文离线文件转写软件包
>>>便捷部署
FunASR社区提供了英文离线文件转写软件包一键部署方案,开发者可以通过funasr-runtime-deploy-offline-cpu-en.sh一键完成docker安装、镜像启动、服务部署,详见英文离线文件转写服务便捷部署教程:https://github.com/alibaba-damo-academy/FunASR/blob/main/funasr/runtime/docs/SDK_tutorial_en_zh.md
>>>高精度
FunASR软件包集成了阿里巴巴智能计算研究院语音实验室在ModelScope开源的,采用海量数据训练的工业级语音识别模型Paraformer-en,保证了端到端转写效果的精度。下方表格对比了Paraformer-en模型与Whisper模型的识别效果与推理效率:
表1 Paraformer-en与Whisper推理速度与识别效果对比
Paraformer-en模型与Whisper-small-en模型相比,参数量相近,Whisper受益于68+万小时训练数据,相比于Paraformer-en模型5万小时训练数据,识别效果有一定优势(学术集差距在相对10%左右,工业集差距相对4%)。Paraformer模型受益于其非自回归结构,计算效率优势较大,相比于同参数量的Whisper-small-en模型,推理速度提升10倍以上,对于服务部署更加友好。
注:1.RTF测试GPU机器V100,CPU机器为Intel(R) Xeon(R) Platinum 8369B CPU @ 2.90GHz;
2.funasr已经支持whisper模型,上述表格可以通过funasr快速进行测试。
>>>高推理效率
FunASR软件包中的语音端点检测(VAD)、语音识别(ASR)、标点断句(PUNC)模型均通过onnx 量化导出实现推理加速,其中ASR模型为基于Paraformer的非自回归模型,相比于目前普遍采用的自回归模型具有明显的推理效率优势,可同时支持多线并发,可以准确、高效的对音频进行转写。我们采用Librispeech test_clean测试集测试了软件包的转写加速比,CPU8369B上的吞吐率为448,即每小时可以推理448小时音频。
不同配置下的详细吞吐率指标如下表:
表2 FunASR英文离线文件转写软件包性能测试
注:测试机器为 Intel(R) Xeon(R) Platinum 8369B CPU @ 2.90GHz 16core-32processor with avx512_vnni
更多详细结果详见benchmark👇:
https://github.com/alibaba-damo-academy/FunASR/blob/main/funasr/runtime/docs/benchmark_onnx_cpp.md
>>>长音频链路
FunASR软件包提供了一套完整的语音识别链路,包括语音端点检测(VAD)、语音识别(ASR)、标点断句(PUNC),可用于高效转写长音频,无需用户进行二次开发。我们在一个长音频测试集上(时长为0~24min)分别对asr链路、vad+asr+punc链路进行了测试,asr链路在并发32线时会OOM,vad+asr+punc链路的吞吐率为334,相比asr链路有明显优势。
不同配置下的详细吞吐率指标如下表:
表3 FunASR英文离线文件转写软件包长音频输入性能测试
注:测试机器为 Intel(R) Xeon(R) Platinum 8369B CPU @ 2.90GHz 16core-32processor with avx512_vnni
▎软件包安装使用指南
精简操作,即刻安装,FunASR软件包当前已开源。
开源软件包包地址👇:https://github.com/alibaba-damo-academy/FunASR/blob/main/funasr/runtime/readme_cn.md
>>>步骤:
第一步:下载安装部署工具
curl -O https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/shell/funasr-runtime-deploy-offline-cpu-en.sh
第二步:安装部署
sudo bash funasr-runtime-deploy-offline-cpu-en.sh install --workspace ./funasr-runtime-resources
第三步:测试与使用
运行上面安装指令后,会在./funasr-runtime-resources下载samples, 为客户端测试工具,支持python/c++/java/html网页等语言。支持多种音频格式输入(.wav, .pcm, .mp3等),也支持视频输入(.mp4等)。
我们以html网页版本client为例,进行说明:在浏览器中打开samples/html/static/index.html,出现如下页面,输入部署服务器ip与端口号后,可以直接进行体验。
图2 html网页客户端体验
同时我们在云端部署了FunASR实时语音转写服务,用户可以直接在浏览器中进行体验:
英文离线文件转写:https://101.37.77.25:1332/static/index.html
离线文件转写(热词模型):https://101.37.77.25:1335/static/index.html
离线文件转写(时间戳模型):https://101.37.77.25:1334/static/index.html
实时语音听写:https://101.37.77.25:1336/static/index.html▎
▎特别致谢
与开发者们共力同工奔赴开源未来!
FunASR离线文件转写软件包归属于FunASR开源项目。在项目开源过程中,众多志同道合的社区开发者们参与进来,与我们共同努力,共享知识、互相支持,形成一种紧密的合作关系,推动着开源项目的发展。
在此特别感谢:赵明(爱医声)、刘柏基(元象唯思)、马勇(北京理工大学)、朱云峰(上海电信)、张旭(云南日报)、邱威(广州荔支网路)、郭欢(卡斯柯)等。