WeNet入驻魔搭Modelscope,助推开源语音社区协同创新

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,5000CU*H 3个月
简介: 继杭州云栖大会,阿里达摩院携手 CCF 开源发展委员会共同推出 AI 模型社区“魔搭” ModelScope以来,达摩院率先向魔搭社区贡献 300 多个经过验证的优质 AI 模型,进行了全面开源开放。澜舟科技、深势科技、智谱 AI等合作机构亦在社区开源业界领先模型,包括视觉、语音、自然语言处理、多模态等 AI 主要方向,并向 AI for Science 等新领域积极探索,覆盖的主流任务超过 60 个。

继杭州云栖大会,阿里达摩院携手 CCF 开源发展委员会共同推出 AI 模型社区“魔搭” ModelScope以来,达摩院率先向魔搭社区贡献 300 多个经过验证的优质 AI 模型,进行了全面开源开放。澜舟科技、深势科技、智谱 AI等合作机构亦在社区开源业界领先模型,包括视觉、语音、自然语言处理、多模态等 AI 主要方向,并向 AI for Science 等新领域积极探索,覆盖的主流任务超过 60 个。12月,WeNet作为当前国内最活跃的语音AI领域的开源项目之一,选择入驻魔搭社区ModelScope,将自身领先的模型(例如:WeNet-U2pp_Conformer-语音识别-中文-16k-实时)、以及万小时级大规模开源数据库开放给业内的算法创新者和模型应用者生态。希望通过魔搭对WeNet领先的模型和数据集进行进一步开放共享,与更多的开发者产生链接和交流,并促进以WeNet为框架基础的语音AI领域的算法研究创新,从而为模型及应用的繁荣贡献力量。

魔搭社区作为模型创新和应用的平台,秉承开放中立的原则,欢迎所有AI开发者加入,不断进行全方面的模型创新,在此互相交流、切磋,共同促进算法研究和相关领域的技术进步。

WeNet 开源社区

WeNet 开源社区作为国内最大的开源语音社区,使命是“让 AI 变得更简单”。

社区目标是:

  • 推动基于深度学习的语音技术落地
  • 推动开源语音生态建设
  • 助力国产平台和芯片生态体系

社区项目包括(但不限于):

  • wenet 端到端语音识别工具
  • wetts 端到端语音合成工具
  • wekws 端到端唤醒工具
  • wespeaker 端到端声纹识别工具
  • WeTextProcessing 新一代文本正规化/反正规化工具
  • WenetSpeech 一万小时大规模多领域中文语音数据集
  • Opencpop 首个开源中文歌唱合成数据集

以上方案和数据在行业内广泛应用,其面向生产的属性更是深受工业界的好评。

魔搭 × WeNet 开源社区

近期,WeNet 开源社区入驻了魔搭后,开放模型库数据集创空间Notebook等探索功能。

模型库

模型库(Model Hub)是共享机器学习模型、demo演示、数据集和数据指标的地方。用户可以轻松地创建和管理自己的模型库,利用界面或开发环境来便捷地上传、下载相关模型文件,并从 Model Hub 中获取有用的模型和数据集元数据。

WeNet 开源社区在模型库中提供了用 WenetSpeech 训练的 U2++ Conformer 通用中文语音识别模型,在 PC 端访问链接即可在线体验:

https://modelscope.cn/models/wenet/u2pp_conformer-asr-cn-16k-online

创空间

创空间(Studio)提供了自由灵活的AI应用展示空间。用户可以基于魔搭平台上模型提供的原子能力,自行搭建与展示不同 AI 应用,包括自定义的模型输入输出,多模型的组合,以及可视化交互展现形式等等。

WeNet 开源社区在创空间中提供了使用 Gradio 构建的语音识别应用展示。


Notebook

魔搭平台为每位用户提供一定的免费初始算力支持,供用户在 Notebook 内体验模型训练、推理、评估等全流程。

大家在 Notebook 中通过三行代码,即可调用 wenet 端到端语音识别工具提供的语音识别服务。





from modelscope.pipelines import pipelinep = pipeline('auto-speech-recognition', 'wenet/u2pp_conformer-asr-cn-16k-online')
p('https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example.wav')

数据集

数据集仓库(DatasetHub)用于集中管理数据,支持模型进行训练、预测等,使各类型数据具备易访问、易管理、易共享的特点。数据集支持文本、图像、音频、视频、多模态等多种类型的数据管理。用户可以通过界面、SDK 等方式,轻松地创建、管理和使用数据集。

WeNet 开源社区在数据集中托管了 WenetSpeech 一万小时大规模多领域中文语音数据集。


大家通过三行代码即可完成 WenetSpeech 音频和文本的下载,该过程自动完成数据完整性的验证和断点续传。





from modelscope.msdatasets import MsDataset
MsDataset.load(dataset_name='WenetSpeech', namespace='wenet', split='audio')MsDataset.load(dataset_name='WenetSpeech', namespace='wenet', split='label')

Future work

魔搭旨在降低 AI 的应用门槛,而WeNet开源社区的使命是“让 AI 变得更简单”,两者信念不谋而合。未来WeNet将会和魔搭在更多的模型、开发工具链、智能应用等方面加强合作,共同推动开源生态的建设和创新。期待来自各大科研机构/公司的算法团队一起来交流互鉴、讨论切磋,从而有效促进语音AI领域的蓬勃发展。

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
3月前
|
人工智能 达摩院 自然语言处理
超好用的开源模型平台,ModelScope阿里达摩院
超好用的开源模型平台,ModelScope阿里达摩院
274 1
|
3月前
|
人工智能 JSON 搜索推荐
社区供稿 | GLM-4适配ModelScope-Agent最佳实践
GLM-4是由智谱 AI 发布的新一代基座大模型。
|
5天前
|
人工智能 数据处理 语音技术
通义语音AI技术问题之查看KAN-TTS在ModelScope上的模型列表如何解决
通义语音AI技术问题之查看KAN-TTS在ModelScope上的模型列表如何解决
22 10
|
7天前
|
人工智能 开发框架 物联网
赢万元奖金 | 第七届CCF开源创新大赛ModelScope开源模型应用挑战赛开启报名!
第七届CCF开源创新大赛(后简称“大赛”) 由中国计算机学会(CCF)主办,长沙理工大学、CCF开源发展委员会联合承办。
|
3月前
|
人工智能 自然语言处理 搜索推荐
魔搭ModelScope社区作为一个AI模型开源平台,提供了丰富的模型资源和便捷的服务
【2月更文挑战第9天】魔搭ModelScope社区作为一个AI模型开源平台,提供了丰富的模型资源和便捷的服务
361 3
|
2月前
|
人工智能 开发工具 Swift
ModelScope联手OpenDataLab:直接调用7000+开源数据集,赋能AI模型加速研发
魔搭社区和OpenDatalab浦数合作,共同开启一场模型与数据的深度融合,旨在为中国开发者打造更加高效、开放的AI体验。
|
3月前
|
开发框架 API 决策智能
ModelScope-Agent框架再升级!新增一键配置多人聊天,配套开源多智能体数据集和训练
ModelScope-Agent是魔搭社区推出的适配开源大语言模型(LLM)的AI Agent(智能体)开发框架,借助ModelScope-Agent,所有开发者都可基于开源 LLM 搭建属于自己的智能体应用。在最新升级完Assistant API和Tool APIs之后,我们又迎来了多智能体聊天室的升级,通过几分钟快速配置即可搭建一个全新的聊天室。
|
3月前
|
数据采集 机器学习/深度学习 人工智能
阿里云魔搭社区发起ModelScope-Sora开源计划
阿里云魔搭社区在2024全球开发者先锋大会上启动ModelScope-Sora开源计划,聚焦中国多模态大模型研究,推出一站式工具链和Data-Juicer多模态数据处理系统,提升处理效率与质量。该计划还包括基础类Sora模型开源及沙盒实验室,以支持开发者迭代与训练。面对数据质量、安全、商业平衡及算力挑战,魔搭社区致力于推动AI创新,已汇聚众多模型与开发者。
1076 1
阿里云魔搭社区发起ModelScope-Sora开源计划
|
3月前
|
机器学习/深度学习 数据采集 编解码
阿里云魔搭发起“ModelScope-Sora开源计划”
阿里云魔搭发起“ModelScope-Sora开源计划”
100 0
阿里云魔搭发起“ModelScope-Sora开源计划”
|
3月前
|
PyTorch 测试技术 TensorFlow
Modelscope-FunASR是一个开源的语音识别框架
【2月更文挑战第9天】Modelscope-FunASR是一个开源的语音识别框架
547 2