开源上新|FunASR英文离线文件转写软件包发布

简介: 开源上新|FunASR英文离线文件转写软件包发布

文章来自 阿里语音AI公众号

FunASR是由阿里巴巴智能计算研究院语音实验室开源的语音识别框架,集成了语音端点检测、语音识别、标点预测等领域的工业级模型的训练和部署,吸引了众多开发者参与体验和开发。

今年7月初,FunASR开源社区发布了离线文件转写软件包,实现了高精度、高效率、高并发的长音频离线文件转写,并在8月份发布了支持实时语音听写软件包,既可以实时地进行语音转文字,而且能够在说话句尾用高精度的转写文字修正输出。

本月,应社区用户的需求与反馈,FunASR特推出英文离线文件转写软件包该软件包结合了阿里巴巴智能计算研究院语音实验室在Modelscope社区开源的语音端点检测、语音识别、标点断句等模型,支持模型的ONNX导出与量化,并提供了可方便快捷的部署到本地或者云端服务器的一键化部署脚本。开发者可以基于该软件包,便捷地构建高精度、高并发、高效率的英文离线文件转写服务。

图1 FunASR英文离线文件转写服务架构图


最新发布,体验下载👉FunASR英文离线文件转写软件包:

https://github.com/alibaba-damo-academy/FunASR/blob/main/funasr/runtime/docs/SDK_tutorial_en_zh.md


(8月发布)FunASR实时语音听写软件包:https://github.com/alibaba-damo-academy/FunASR/blob/main/funasr/runtime/docs/SDK_tutorial_online_zh.md
(7月发布)FunASR离线文件转写软件包:https://github.com/alibaba-damo-academy/FunASR/blob/main/funasr/runtime/docs/SDK_tutorial_zh.md


英文离线文件转写软件包

>>>便捷部署


FunASR社区提供了英文离线文件转写软件包一键部署方案,开发者可以通过funasr-runtime-deploy-offline-cpu-en.sh一键完成docker安装、镜像启动、服务部署,详见英文离线文件转写服务便捷部署教程:https://github.com/alibaba-damo-academy/FunASR/blob/main/funasr/runtime/docs/SDK_tutorial_en_zh.md


>>>高精度

FunASR软件包集成了阿里巴巴智能计算研究院语音实验室在ModelScope开源的,采用海量数据训练的工业级语音识别模型Paraformer-en,保证了端到端转写效果的精度。下方表格对比了Paraformer-en模型与Whisper模型的识别效果与推理效率:

表1 Paraformer-en与Whisper推理速度与识别效果对比

Paraformer-en模型与Whisper-small-en模型相比,参数量相近,Whisper受益于68+万小时训练数据,相比于Paraformer-en模型5万小时训练数据,识别效果有一定优势(学术集差距在相对10%左右,工业集差距相对4%)。Paraformer模型受益于其非自回归结构,计算效率优势较大,相比于同参数量的Whisper-small-en模型,推理速度提升10倍以上,对于服务部署更加友好。

注:1.RTF测试GPU机器V100,CPU机器为Intel(R) Xeon(R) Platinum 8369B CPU @ 2.90GHz;

2.funasr已经支持whisper模型,上述表格可以通过funasr快速进行测试。

>>>高推理效率

FunASR软件包中的语音端点检测(VAD)、语音识别(ASR)、标点断句(PUNC)模型均通过onnx 量化导出实现推理加速,其中ASR模型为基于Paraformer的非自回归模型,相比于目前普遍采用的自回归模型具有明显的推理效率优势,可同时支持多线并发,可以准确、高效的对音频进行转写。我们采用Librispeech test_clean测试集测试了软件包的转写加速比,CPU8369B上的吞吐率为448,即每小时可以推理448小时音频

不同配置下的详细吞吐率指标如下表:

表2 FunASR英文离线文件转写软件包性能测试

注:测试机器为 Intel(R) Xeon(R) Platinum 8369B CPU @ 2.90GHz 16core-32processor with avx512_vnni

更多详细结果详见benchmark👇:

https://github.com/alibaba-damo-academy/FunASR/blob/main/funasr/runtime/docs/benchmark_onnx_cpp.md

>>>长音频链路

FunASR软件包提供了一套完整的语音识别链路,包括语音端点检测(VAD)、语音识别(ASR)、标点断句(PUNC),可用于高效转写长音频,无需用户进行二次开发。我们在一个长音频测试集上(时长为0~24min)分别对asr链路、vad+asr+punc链路进行了测试,asr链路在并发32线时会OOM,vad+asr+punc链路的吞吐率为334,相比asr链路有明显优势。

不同配置下的详细吞吐率指标如下表:

表3 FunASR英文离线文件转写软件包长音频输入性能测试

注:测试机器为 Intel(R) Xeon(R) Platinum 8369B CPU @ 2.90GHz 16core-32processor with avx512_vnni
软件包安装使用指南

精简操作,即刻安装,FunASR软件包当前已开源

开源软件包包地址👇:https://github.com/alibaba-damo-academy/FunASR/blob/main/funasr/runtime/readme_cn.md


>>>步骤:

第一步:下载安装部署工具

    curl -O https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/shell/funasr-runtime-deploy-offline-cpu-en.sh


    第二步:安装部署

      sudo bash funasr-runtime-deploy-offline-cpu-en.sh install --workspace ./funasr-runtime-resources

      第三步:测试与使用

      运行上面安装指令后,会在./funasr-runtime-resources下载samples, 为客户端测试工具,支持python/c++/java/html网页等语言。支持多种音频格式输入(.wav, .pcm, .mp3等),也支持视频输入(.mp4等)。我们以html网页版本client为例,进行说明:在浏览器中打开samples/html/static/index.html,出现如下页面,输入部署服务器ip与端口号后,可以直接进行体验。

      图2 html网页客户端体验

      同时我们在云端部署了FunASR实时语音转写服务,用户可以直接在浏览器中进行体验:

      英文离线文件转写https://101.37.77.25:1332/static/index.html

      离线文件转写(热词模型)https://101.37.77.25:1335/static/index.html

      离线文件转写(时间戳模型)https://101.37.77.25:1334/static/index.html

      实时语音听写https://101.37.77.25:1336/static/index.html

      相关实践学习
      达摩院智能语音交互 - 声纹识别技术
      声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
      相关文章
      |
      自然语言处理 语音技术 开发者
      开源上新|FunASR多语言离线文件转写软件包
      开源上新|FunASR多语言离线文件转写软件包
      |
      人工智能 达摩院 并行计算
      中文语音识别转文字的王者,阿里达摩院FunAsr足可与Whisper相颉顽
      君不言语音识别技术则已,言则必称Whisper,没错,OpenAi开源的Whisper确实是世界主流语音识别技术的魁首,但在中文领域,有一个足以和Whisper相颉顽的项目,那就是阿里达摩院自研的FunAsr。 FunAsr主要依托达摩院发布的Paraformer非自回归端到端语音识别模型,它具有高精度、高效率、便捷部署的优点,支持快速构建语音识别服务,最重要的是,FunASR支持标点符号识别、低语音识别、音频-视觉语音识别等功能,也就是说,它不仅可以实现语音转写,还能在转写后进行标注,一石二鸟。
      中文语音识别转文字的王者,阿里达摩院FunAsr足可与Whisper相颉顽
      |
      Java 测试技术 语音技术
      开源上新|FunASR英文离线文件转写软件包发布
      开源上新|FunASR英文离线文件转写软件包发布
      |
      10月前
      |
      NoSQL IDE MongoDB
      Studio 3T 2025.5 (macOS, Linux, Windows) - MongoDB 的终极 GUI、IDE 和 客户端
      Studio 3T 2025.5 (macOS, Linux, Windows) - MongoDB 的终极 GUI、IDE 和 客户端
      391 2
      Studio 3T 2025.5 (macOS, Linux, Windows) - MongoDB 的终极 GUI、IDE 和 客户端
      |
      存储 人工智能 达摩院
      FunASR 语音大模型在 Arm Neoverse 平台上的优化实践
      Arm 架构的服务器通常具备低功耗的特性,能带来更优异的能效比。相比于传统的 x86 架构服务器,Arm 服务器在相同功耗下能够提供更高的性能。这对于大模型推理任务来说尤为重要,因为大模型通常需要大量的计算资源,而能效比高的 Arm 架构服务器可以提供更好的性能和效率。
      |
      人工智能 自然语言处理 机器人
      手把手带你搭建一个语音对话机器人,5分钟定制个人AI小助手(新手入门篇)
      本文介绍了如何从零开始搭建一个语音对话机器人,涵盖自动语音识别(ASR)、自然语言处理(NLP)和文本到语音合成(TTS)三大核心模块。通过使用开源工具如FunASR、LLaMA3-8B和ChatTTS,以及FastAPI和Gradio等技术,详细指导读者轻松实现个人AI小助手的构建,适合技术新手快速上手。
      5817 1
      |
      人工智能 Linux Docker
      一文详解几种常见本地大模型个人知识库工具部署、微调及对比选型(1)
      近年来,大模型在AI领域崭露头角,成为技术创新的重要驱动力。从AlphaGo的胜利到GPT系列的推出,大模型展现出了强大的语言生成、理解和多任务处理能力,预示着智能化转型的新阶段。然而,要将大模型的潜力转化为实际生产力,需要克服理论到实践的鸿沟,实现从实验室到现实世界的落地应用。阿里云去年在云栖大会上发布了一系列基于通义大模型的创新应用,标志着大模型技术开始走向大规模商业化和产业化。这些应用展示了大模型在交通、电力、金融、政务、教育等多个行业的广阔应用前景,并揭示了构建具有行业特色的“行业大模型”这一趋势,大模型知识库概念随之诞生。
      157238 30
      |
      机器学习/深度学习 人工智能 算法
      技术开源|FunASR升级第三代热词方案
      技术开源|FunASR升级第三代热词方案
      3735 62
      |
      人工智能 自然语言处理 Java
      Spring AI,Spring团队开发的新组件,Java工程师快来一起体验吧
      文章介绍了Spring AI,这是Spring团队开发的新组件,旨在为Java开发者提供易于集成的人工智能API,包括机器学习、自然语言处理和图像识别等功能,并通过实际代码示例展示了如何快速集成和使用这些AI技术。
      Spring AI,Spring团队开发的新组件,Java工程师快来一起体验吧
      |
      人工智能 数据可视化 数据处理
      推荐2款免费开源的标注工具,支持大模型对话标注
      【LabelLLM】一款开源免费的大模型对话标注平台,专为优化大型语言模型的数据标注过程设计。支持灵活配置与多模态数据(音频、图像、视频),具备全面任务管理和AI辅助标注功能,大幅提升标注效率与准确性。了解更多请前往https://github.com/opendatalab/LabelLLM 【LabelU】一款轻量级开源标注工具,支持图像、视频、音频的高效标注。特色功能包括多功能图像处理、视频和音频分析等,简易灵活,支持多种数据格式输出。了解更多请前往https://github.com/opendatalab/labelU
      4100 11