开源上新|FunASR多语言离线文件转写软件包

简介: 开源上新|FunASR多语言离线文件转写软件包

文章来源:阿里语音AI

FunASR是由通义实验室开源的语音识别框架,集成了语音端点检测、语音识别、标点预测等领域的工业级模型的训练和部署,吸引了众多开发者参与体验和开发。


为了支持用户便捷高效的集成语音AI能力,FunASR社区推出了服务部署社区软件包,支持Docker化部署,多路请求。面对社区用户的需求与反馈,本次推出多语言离线文件转写软件包通过SenseVoiceSmall模型可实现中、英、日、粤、韩多语言的服务部署,同时具备多种语音理解能力,涵盖了语音识别(ASR)、语言识别(LID)、情感识别(SER)以及音频事件检测(AED),可以进行高精度、高效率与高并发的文件转写。



c8877e06029ee3495ea593b5d0f165ac.png

图1 FunASR社区软件包发布路线图


FunASR社区软件包地址:

https://github.com/modelscope/FunASR/blob/main/runtime/readme_cn.md



多语言离线文件转写软件包


3f002533f1ca6f0340c51ca49d4e5d2e.png

图2 多语言离线文件转写服务架构图


上图中,FSMN-VAD为语音端点检测模型,用于检测输入音频中有效语音的起止时间点信息,从而将输入的长音频转化为短音频,将检测出来的有效音频片段输入声学模型进行识别,减少无效语音带来的识别错误。

SenseVoiceSmall为声学模型,用于将输入的音频转化成文字序列,支持中、英、日、粤、韩五种语言,同时具备多种语音理解能力,涵盖了语音识别(ASR)、语言识别(LID)、情感识别(SER)以及音频事件检测(AED)。

SenseVoice-Small旨在提供全面的语音处理功能,从而支持构建更复杂的语音交互系统,是一款仅含编码器的轻量级基础语音模型,设计用于快速语音理解。它可以快速处理语音数据,并在有需要时迅速做出响应,适用于对延迟敏感的应用场合,如实时语音交互系统。


39019ac6faf1b01dbfd5c14f1bfdbf75.png

图3 SenseVoiceSmall模型结构图


>>>多语言语音识别性能


我们在开放源数据集上比较了SenseVoiceSmall和Whisper的多语言识别性能和推理效率,包括AISHELL-1、AISHELL-2、Wenetspeech、Librispeech和Common Voice,详见下图。

2fead4740cd6eaafba65e57339caa177.png

f532658be591e14a9b77c8ed9df0b398.png

SenseVoice-Small采用非自回归端到端架构,由此带来的推理延迟极低。相比之下,它比Whisper-Small快7倍,比Whisper-Large快17倍。


下表1为在A800机器上的推理效率对比。

7cd1dd25d745732f7f51f1495fc8402c.png


>>>语音情感识别性能


SenseVoiceSmall也可以用于离散情绪识别,目前支持的情绪类型包括高兴、悲伤、愤怒和中性。我们在7个流行的情绪识别数据集上对其进行了评估,即使没有对目标语料库进行微调,SenseVoice-Small都能在大多数数据集上拿到一个不错的结果。

085b31420046668379498d10190e1f74.png

>>>音频事件检测性能


SenseVoiceSmall能在语音中检测音频事件,包括音乐、掌声和笑声,以及在人机互动过程中可能出现的咳嗽、打喷嚏、呼吸和哭泣等。


7c68ddfc991c5a07218d2957bae8f95b.png



软件包安装使用指南


精简操作,即刻安装,FunASR软件包当前已开源开源软件包包地址👇:

https://github.com/modelscope/FunASR/blob/main/runtime/readme_cn.md


>>>步骤:


第零步:docker安装(可选)


# 如果您已安装docker,忽略本步骤

     curl -O https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/shell/install_docker.sh;
     sudo bash install_docker.sh


    第一步:镜像启动


       sudo docker pull \ 
       registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-cpu-0.4.6
       mkdir -p ./funasr-runtime-resources/models
       sudo docker run -p 10095:10095 -it --privileged=true \  
       -v $PWD/funasr-runtime-resources/models:/workspace/models \  
       registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-cpu-0.4.6


      第二步:服务端启动


        cd FunASR/runtime; nohup bash run_server.sh --model-dir iic/SenseVoiceSmall-onnx > log.out 2>&1 &


        第三步:测试与使用


        等待服务端启动后,可以用客户端进行测试,支持python/c++/java/html网页等语言。

        支持多种音频格式输入(.wav, .pcm, .mp3等),也支持视频输入(.mp4等)。


        客户端下载地址:


        https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/sample/funasr_samples.tar.gz

        我们以html网页版本client为例,进行说明:在浏览器中打开samples/html/static/index.html,出现如下页面,输入部署服务器ip与端口号后,可以直接进行体验。

        623024ce66a8b6f1031374c99f96c298.png

        图5 html网页客户端体验

        同时我们在云端部署了FunASR离线文件转写、实时语音听写等服务,用户可以直接在浏览器中进行体验:https://www.funasr.com/#/


        特别致谢


        与开发者们共力同工奔赴开源未来!

        FunASR离线文件转写软件包归属于FunASR开源项目。在项目开源过程中,众多志同道合的社区开发者们参与进来,与我们共同努力,共享知识、互相支持,形成一种紧密的合作关系,推动着开源项目的发展。


        在此特别感谢:赵明(爱医声)、刘柏基(元象唯思)、马勇(北京理工大学)、朱云峰(上海电信)、张旭(云南日报)、杜靖(魔珐科技)、邱威(广州荔支网路)、郭欢(卡斯柯)、徐怀移(顶顶通)、王涛(blt)、王振平等。

        相关实践学习
        达摩院智能语音交互 - 声纹识别技术
        声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
        相关文章
        |
        3月前
        |
        测试技术 语音技术 开发者
        FunASR英文离线文件转写软件包问题之推理加速如何解决
        FunASR英文离线文件转写软件包问题之推理加速如何解决
        48 0
        |
        6月前
        |
        API 语音技术
        ModelScope-FunASR**有支持热词又支持时间戳的模型**。
        【2月更文挑战第30天】ModelScope-FunASR**有支持热词又支持时间戳的模型**。
        216 2
        |
        6月前
        |
        语音技术 异构计算
        FunASR项目支持实时语音识别
        FunASR项目支持实时语音识别【1月更文挑战第7篇】
        2252 1
        |
        达摩院 Java 大数据
        达摩院FunASR实时语音转写服务软件包发布
        达摩院FunASR实时语音转写服务软件包发布
        944 0
        达摩院FunASR实时语音转写服务软件包发布
        |
        达摩院 Java 测试技术
        最新迭代|FunASR离线文件转写软件包2.0
        最新迭代|FunASR离线文件转写软件包2.0
        714 0
        |
        3月前
        |
        语音技术
        FunASR英文离线文件转写软件包问题之实时语音听写软件包功能如何解决
        FunASR英文离线文件转写软件包问题之实时语音听写软件包功能如何解决
        35 0
        |
        3月前
        |
        测试技术 语音技术
        FunASR英文离线文件转写软件包问题之性能测试详细结果查看如何解决
        FunASR英文离线文件转写软件包问题之性能测试详细结果查看如何解决
        68 0
        |
        3月前
        |
        人工智能 Java 语音技术
        开源上新|FunASR离线文件转写GPU软件包1.0
        开源上新|FunASR离线文件转写GPU软件包1.0
        |
        3月前
        |
        语音技术 Python
        FunASR升级热词定制化问题之使用FunASR工具包进行ASR推理,如何操作
        FunASR升级热词定制化问题之使用FunASR工具包进行ASR推理,如何操作
        109 1
        |
        3月前
        |
        自然语言处理 语音技术 Docker
        开源上新|FunASR离线文件转写软件包3.0
        开源上新|FunASR离线文件转写软件包3.0
        下一篇
        无影云桌面