WeNet入驻魔搭Modelscope,助推开源语音社区协同创新

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: WeNet入驻魔搭Modelscope,助推开源语音社区协同创新

继杭州云栖大会,阿里达摩院携手 CCF 开源发展委员会共同推出 AI 模型社区“魔搭” ModelScope以来,达摩院率先向魔搭社区贡献 300 多个经过验证的优质 AI 模型,进行了全面开源开放。澜舟科技、深势科技、智谱 AI等合作机构亦在社区开源业界领先模型,包括视觉、语音、自然语言处理、多模态等 AI 主要方向,并向 AI for Science 等新领域积极探索,覆盖的主流任务超过 60 个。


12月,WeNet作为当前国内最活跃的语音AI领域的开源项目之一,选择入驻魔搭社区ModelScope,将自身领先的模型(例如:WeNet-U2pp_Conformer-语音识别-中文-16k-实时)、以及万小时级大规模开源数据库开放给业内的算法创新者和模型应用者生态。希望通过魔搭对WeNet领先的模型和数据集进行进一步开放共享,与更多的开发者产生链接和交流,并促进以WeNet为框架基础的语音AI领域的算法研究创新,从而为模型及应用的繁荣贡献力量。

魔搭社区作为模型创新和应用的平台,秉承开放中立的原则,欢迎所有AI开发者加入,不断进行全方面的模型创新,在此互相交流、切磋,共同促进算法研究和相关领域的技术进步。

WeNet 开源社区

社区目标是:

  • 推动基于深度学习的语音技术落地
  • 推动开源语音生态建设
  • 助力国产平台和芯片生态体系

社区项目包括(但不限于):

  • wenet 端到端语音识别工具
  • wetts 端到端语音合成工具
  • wekws 端到端唤醒工具
  • wespeaker 端到端声纹识别工具
  • WeTextProcessing 新一代文本正规化/反正规化工具
  • WenetSpeech 一万小时大规模多领域中文语音数据集
  • Opencpop 首个开源中文歌唱合成数据集

以上方案和数据在行业内广泛应用,其面向生产的属性更是深受工业界的好评。

魔搭 × WeNet 开源社区

近期,WeNet 开源社区入驻了魔搭后,开放模型库数据集创空间Notebook等探索功能。

模型库

模型库(Model Hub)是共享机器学习模型、demo演示、数据集和数据指标的地方。用户可以轻松地创建和管理自己的模型库,利用界面或开发环境来便捷地上传、下载相关模型文件,并从 Model Hub 中获取有用的模型和数据集元数据。

image.png

WeNet 开源社区在模型库中提供了用 WenetSpeech 训练的 U2++ Conformer 通用中文语音识别模型,在 PC 端访问链接即可在线体验:

https://modelscope.cn/models/wenet/u2pp_conformer-asr-cn-16k-online

image.png

创空间

创空间(Studio)提供了自由灵活的AI应用展示空间。用户可以基于魔搭平台上模型提供的原子能力,自行搭建与展示不同 AI 应用,包括自定义的模型输入输出,多模型的组合,以及可视化交互展现形式等等。

WeNet 开源社区在创空间中提供了使用 Gradio 构建的语音识别应用展示。

image.png

Notebook

魔搭平台为每位用户提供一定的免费初始算力支持,供用户在 Notebook 内体验模型训练、推理、评估等全流程。

大家在 Notebook 中通过三行代码,即可调用 wenet 端到端语音识别工具提供的语音识别服务。

from modelscope.pipelines import pipeline
p = pipeline('auto-speech-recognition', 'wenet/u2pp_conformer-asr-cn-16k-online')
p('https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example.wav')

image.png

数据集

数据集仓库(DatasetHub)用于集中管理数据,支持模型进行训练、预测等,使各类型数据具备易访问、易管理、易共享的特点。数据集支持文本、图像、音频、视频、多模态等多种类型的数据管理。用户可以通过界面、SDK 等方式,轻松地创建、管理和使用数据集。

image.png

WeNet 开源社区在数据集中托管了 WenetSpeech 一万小时大规模多领域中文语音数据集。

image.png

大家通过三行代码即可完成 WenetSpeech 音频和文本的下载,该过程自动完成数据完整性的验证和断点续传。

from modelscope.msdatasets import MsDataset
MsDataset.load(dataset_name='WenetSpeech', namespace='wenet', split='audio')
MsDataset.load(dataset_name='WenetSpeech', namespace='wenet', split='label')

Future work

魔搭旨在降低 AI 的应用门槛,而WeNet开源社区的使命是“让 AI 变得更简单”,两者信念不谋而合。未来WeNet将会和魔搭在更多的模型、开发工具链、智能应用等方面加强合作,共同推动开源生态的建设和创新。期待来自各大科研机构/公司的算法团队一起来交流互鉴、讨论切磋,从而有效促进语音AI领域的蓬勃发展。

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
8月前
|
人工智能 达摩院 自然语言处理
超好用的开源模型平台,ModelScope阿里达摩院
超好用的开源模型平台,ModelScope阿里达摩院
547 1
|
2月前
|
存储 数据可视化 API
ModelScope魔搭11月版本发布月报
ModelScope 11月更新来袭!本次更新依然是干货满满的一期。
|
3月前
|
弹性计算 Serverless API
海量大模型如何一键部署上云,函数计算 x ModelScope 社区给出答案
得益于阿里云函数计算的产品能力,魔搭 SwingDeploy 后的模型推理 API 服务默认具备极致弹性伸缩(缩零能力)、GPU 虚拟化(最小 1GB 显存粒度)、异步调用能力、按用付费、闲置计费等能力,这些能力帮助算法工程师大大加快了魔搭开源模型投入生产的生命周期。
|
3月前
|
存储 人工智能 缓存
ModelScope魔搭10月版本发布月报
ModelScope 10月份整体上新啦!本次更新干货满满,推出了我们在内部开发与灰度许久的全新站点设计,其中也包括开发者反馈已久的暗黑模式支持等一系列功能,希望得到大家的使用反馈。
|
5月前
|
人工智能 数据处理 语音技术
通义语音AI技术问题之查看KAN-TTS在ModelScope上的模型列表如何解决
通义语音AI技术问题之查看KAN-TTS在ModelScope上的模型列表如何解决
65 10
|
8月前
|
人工智能 自然语言处理 搜索推荐
魔搭ModelScope社区作为一个AI模型开源平台,提供了丰富的模型资源和便捷的服务
【2月更文挑战第9天】魔搭ModelScope社区作为一个AI模型开源平台,提供了丰富的模型资源和便捷的服务
468 3
|
5月前
|
人工智能 物联网 大数据
开源大赛 | 第七届CCF开源创新大赛ModelScope赛题解读
第七届CCF开源创新大赛由CCF主办,长沙理工大学和CCF开源发展委员会联合承办,以国家“十四五”开源生态发展战略布局为导向,重点关注人工智能、大数据、芯片设计、物联网等领域的开源软件,旨在创建一个展示、交流和合作的平台,激发开源创新精神,培养开源人才,并促进高质量的开源生态系统建设。
|
5月前
|
人工智能 开发框架 物联网
赢万元奖金 | 第七届CCF开源创新大赛ModelScope开源模型应用挑战赛开启报名!
第七届CCF开源创新大赛(后简称“大赛”) 由中国计算机学会(CCF)主办,长沙理工大学、CCF开源发展委员会联合承办。
|
7月前
|
人工智能 开发工具 Swift
ModelScope联手OpenDataLab:直接调用7000+开源数据集,赋能AI模型加速研发
魔搭社区和OpenDatalab浦数合作,共同开启一场模型与数据的深度融合,旨在为中国开发者打造更加高效、开放的AI体验。
|
8月前
|
开发框架 API 决策智能
ModelScope-Agent框架再升级!新增一键配置多人聊天,配套开源多智能体数据集和训练
ModelScope-Agent是魔搭社区推出的适配开源大语言模型(LLM)的AI Agent(智能体)开发框架,借助ModelScope-Agent,所有开发者都可基于开源 LLM 搭建属于自己的智能体应用。在最新升级完Assistant API和Tool APIs之后,我们又迎来了多智能体聊天室的升级,通过几分钟快速配置即可搭建一个全新的聊天室。

热门文章

最新文章