文档备案控制台

开发者社区 ModelScope模型即服务文章正文

三分钟视频｜看懂达摩院新一代语音识别模型训练全过程

2023-05-13 437

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 三分钟视频｜看懂达摩院新一代语音识别模型训练全过程

▏联系我们

使用中如遇到任何问题，欢迎通过ModelScope社区与我们互动。https://developer.aliyun.com/community/modelscope

（扫描上方二维码或输入网址即可联系我们）

文章标签：

智能语音交互

智能语音交互

语音技术

达摩院

关键词：

智能语音交互模型

智能语音交互训练

达摩院智能语音交互

智能语音交互达摩院

智能语音交互视频

相关实践学习

达摩院智能语音交互 - 声纹识别技术

声纹识别是基于每个发音人的发音器官构造不同，识别当前发音人的身份。按照任务具体分为两种：声纹辨认：从说话人集合中判别出测试语音所属的说话人，为多选一的问题声纹确认：判断测试语音是否由目标说话人所说，是二选一的问题（是或者不是）按照应用具体分为两种：文本相关：要求使用者重复指定的话语，通常包含与训练信息相同的文本（精度较高，适合当前应用模式）文本无关：对使用者发音内容和语言没有要求，受信道环境影响比较大，精度不高本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。讲师介绍：郑斯奇，达摩院算法专家，毕业于美国哈佛大学，研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。

技术小达人

目录

相关文章

拓端数据部落

|

机器学习/深度学习数据可视化计算机视觉

【视频】机器学习交叉验证CV原理及R语言主成分PCA回归分析犯罪率|数据共享

【视频】机器学习交叉验证CV原理及R语言主成分PCA回归分析犯罪率|数据共享

拓端数据部落

372 0 0

a15723093529-22168

|

机器学习/深度学习算法数据可视化

计算机视觉+深度学习+机器学习+opencv+目标检测跟踪+一站式学习（代码+视频+PPT)-2

计算机视觉+深度学习+机器学习+opencv+目标检测跟踪+一站式学习（代码+视频+PPT)

a15723093529-22168

505 0 0

蚝油菜花

|

人工智能自然语言处理语音技术

Step-Audio：开源语音交互新标杆！这个国产AI能说方言会rap，1个模型搞定ASR+TTS+角色扮演

Step-Audio 是由阶跃星辰团队推出的开源语音交互模型，支持多语言、方言和情感表达，能够实现高质量的语音识别、对话和合成。本文将详细介绍其核心功能和技术原理。

蚝油菜花

2525 91 92

Step-Audio：开源语音交互新标杆！这个国产AI能说方言会rap，1个模型搞定ASR+TTS+角色扮演

蚝油菜花

|

人工智能编解码语音技术

SpeechGPT 2.0：复旦大学开源端到端 AI 实时语音交互模型，实现 200ms 以内延迟的实时交互

SpeechGPT 2.0 是复旦大学 OpenMOSS 团队推出的端到端实时语音交互模型，具备拟人口语化表达、低延迟响应和多情感控制等功能。

蚝油菜花

3369 21 22

SpeechGPT 2.0：复旦大学开源端到端 AI 实时语音交互模型，实现 200ms 以内延迟的实时交互

蚝油菜花

|

人工智能物联网测试技术

FireRedASR：精准识别普通话、方言和歌曲歌词！小红书开源工业级自动语音识别模型

小红书开源的工业级自动语音识别模型，支持普通话、中文方言和英语，采用 Encoder-Adapter-LLM 和 AED 架构，实现 SOTA 性能。

蚝油菜花

4733 17 17

FireRedASR：精准识别普通话、方言和歌曲歌词！小红书开源工业级自动语音识别模型

a15723093529-22168

|

机器学习/深度学习 Ubuntu Linux

计算机视觉+深度学习+机器学习+opencv+目标检测跟踪+一站式学习（代码+视频+PPT)-1

计算机视觉+深度学习+机器学习+opencv+目标检测跟踪+一站式学习（代码+视频+PPT)

a15723093529-22168

618 1 1

hw2020hw

|

机器学习/深度学习数据采集人工智能

昇腾AI行业案例（七）：基于 Conformer 和 Transformer 模型的中文语音识别

欢迎学习《基于 Conformer 和 Transformer 模型的中文语音识别》实验。本案例旨在帮助你深入了解如何运用深度学习模型搭建一个高效精准的语音识别系统，将中文语音信号转换成文字，并利用开源数据集对模型效果加以验证。

hw2020hw

639 12 12

霍格沃兹测试开发muller老师

|

机器学习/深度学习 PyTorch 语音技术

语音识别模型

Whisper 是 OpenAI 推出的语音处理项目，基于深度学习，具备高度智能化和准确性的语音识别、翻译和生成能力。通过丰富的数据集和先进的注意力机制，Whisper 在多种语言环境下表现出色，支持语音识别、翻译、口语识别和语音活动检测等多种任务。用户可以通过 Python 代码或命令行轻松使用 Whisper，完成高质量的语音处理任务。官网：https://openai.com/research/whisper，GitHub：https://github.com/openai/whisper。

霍格沃兹测试开发muller老师

802 2 2

郑小健

|

机器学习/深度学习算法语音技术

超越传统模型：探讨门控循环单元（GRU）在语音识别领域的最新进展与挑战

【10月更文挑战第7天】随着人工智能技术的不断进步，语音识别已经从一个相对小众的研究领域发展成为日常生活中的常见技术。无论是智能手机上的语音助手，还是智能家居设备，甚至是自动字幕生成系统，都离不开高质量的语音识别技术的支持。在众多用于语音识别的技术中，基于深度学习的方法尤其是递归神经网络（RNNs）及其变体如长短期记忆网络（LSTMs）和门控循环单元（GRUs）已经成为了研究和应用的热点。

郑小健

701 2 2

老板这功能得加钱

|

机器学习/深度学习数据采集算法

2024年机器学习入门，2024年最新字节跳动视频面试一般多久会收到结果

2024年机器学习入门，2024年最新字节跳动视频面试一般多久会收到结果

老板这功能得加钱

212 0 0

2024年机器学习入门，2024年最新字节跳动视频面试一般多久会收到结果

ModelScope模型即服务

热门文章

最新文章

AgentScope：阿里开源多智能体低代码开发平台，支持一键导出源码、多种模型API和本地模型部署

LTX-2.3开源：视频生成引擎级升级

嵌入式开发必备！Keil uVision5 C51 V9.61 安装激活 + 汉化完整教程, 含（Keil MDK 5.39）

DeepSeek-V4开源：百万上下文，Agent能力比肩顶级闭源模型

高效部署通义万相Wan2.1：ComfyUI文生/图生视频实战，工作流直取！

MNN-LLM App：在手机上离线运行大模型，阿里巴巴开源基于 MNN-LLM 框架开发的手机 AI 助手应用

Kimi K2.6开源：编码能力比肩闭源顶级模型，支持300智能体协同

GLM-4V-Flash：智谱 AI 免费开放的图像理解大模型 API 接口

AgentScope 2.0 发布：从"跑通 Demo"到"稳定落地"，构建可靠智能体的工程底座

docker安装部署FunASR

别再被误导了！一文讲透 MCP 与 Function Calling 的真实关系

知识库为谁而建？

MCP 从入门到实战：让大模型真正「动手」

变电设备故障远程专家指导：重构电力运维的价值体系

变电设备故障远程专家指导：重构电力运维的效率与安全边界

跨领域语义漂移的双视角量化框架：基于知识图谱邻居的Jaccard方法与跨域对齐的Word2Vec方法的系统比较与联合诊断

AR 巡检：重塑工业运维的数字革命

CHI-Bench 开源：75 个美国医疗长程工作流压测 30 个前沿 Agent，最强 Claude Code 仅过 28%，端到端医院–保险工司协作直接归零

AgentScope 2.0 发布：从"跑通 Demo"到"稳定落地"，构建可靠智能体的工程底座

Claude Code 在大型代码库里的工程实践

相关产品

人工智能平台 PAI

文档详情产品详情

智能语音交互

文档详情产品详情

相关课程

更多

场景实践 - 机器学习PAI实现精细化营销

场景实践 - 基于机器学习进行收入预测分析

阿里巴巴智能语音交互技术与应用

机器学习入门-概念原理及常用算法

达摩院智能语音交互 - 语音识别技术

达摩院智能语音交互 - 语音合成技术

相关电子书

更多

阿里云总监课第二期——Neural Network Language Model在语音识别中的应用

阿里云总监课第二期——Latency Controlled-BLSTM模型在语音识别中的应用

智能语音交互：阿里巴巴的研究与实践

相关实验场景

更多

在PAI ArtLab一键设计AIGC新春红包

使用PAI+LLaMA Factory微调Qwen2-VL模型，搭建文旅领域知识问答机器人

下一篇

阿里云新品发布AI DeepSign，为AI生成作品赋予可信身份证