英文语音识别

简介: 【8月更文挑战第1天】英文语音识别。

英文语音识别项目以Google的speech_commands英文单词语音识别项目为基础,并做了一些修改,以更好地使用。该项目构建可以识别10个不同单词的基本语音识别网络,10个单词分别为“yes”“no”“up”“down”“left”“right”“on”“off”“stop”“go”。实际的语音和音频识别系统要复杂得多,但就像基于MNIST数据集学习图像识别一样,这个基本语音识别网络能够帮助读者了解所涉及的一些基本技术。
可以通过多种方法构建用于处理音频的神经网络模型,其中包括递归网络或扩张(带洞)卷积。本项目基于Convolutional Neural Networks for Small-footprint Keyword Spotting这篇论文中介绍的架构,这种架构相对简单、可快速训练,并且易于理解。由于音频本身是一段时间内的一维连续信号,而不是二维空间信号,所以这里采用的是卷积神经网络。本项目定义了一个语音字词应该符合的时间范围,并将这段时间内的音频信号转换成图像。将传入的音频样本分成小段(时长仅为几毫秒)并计算一组频段内频率的强度,一段音频内的每组频率强度为数字向量,这些向量按时间顺序排列,形成一个二维数组,该数组可被视为单通道图像,称为声谱图。
具体做法是:将输入的语音处理成能够读取的数据,即将其转换成一组梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC)。MFCC也是一种二维单通道表示法,因此也可将其视为图像,图像会输送到多层卷积神经网络中进行处理,并且在卷积神经网络处理后接入全连接层,再经过softmax()函数完成分类,实现区分不同词汇的功能。

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
机器学习/深度学习 并行计算 Shell
docker 获取Nvidia 镜像 | cuda |cudnn
本文分享如何使用docker获取Nvidia 镜像,包括cuda10、cuda11等不同版本,cudnn7、cudnn8等,快速搭建深度学习环境。
6956 0
|
10月前
|
机器学习/深度学习 算法 计算机视觉
《深度学习案例实战》新书出版——基于阿里魔搭平台
《深度学习案例实战》是一本实用的指南,涵盖多个领域的深度学习应用案例。本书旨在通过具体的案例讲解,阐述典型深度学习算法在图像分类、声音识别、语义分割、目标检测等各个领域的广泛应用。本书所涵盖的典型案例包括太阳黑子分类、气象预测、食物声音分类、智能厨房、智能冰箱食材检测、集体照人脸识别、遛狗绳识别、智能售药机药品检测、道路裂纹检测、学生教室行为检测等。这些案例旨在通过实际问题的解决,使读者能够深入理解深度学习算法的应用和实践。 本书特别关注两个关键技术:低代码开发平台摩搭ModelScope和深度学习加速器OpenVINO。摩搭平台为读者提供了一个便捷的开发环境,借助其丰富的预训练模型库和开发平
350 2
《深度学习案例实战》新书出版——基于阿里魔搭平台
|
11月前
|
监控 网络协议 Nacos
Nacos:构建微服务架构的基石
Nacos:构建微服务架构的基石
404 2
|
12月前
|
Java Linux 开发工具
用sdkman管理多个jdk切换
【10月更文挑战第13天】SDKMAN 是一个用于在基于 Unix 的系统(如 Linux 和 macOS)上管理多个软件开发工具包(SDK)版本的工具,特别适用于管理不同版本的 JDK。通过 SDKMAN,开发者可以轻松安装、切换和设置默认 JDK 版本,提高开发效率。安装后,可以通过 `sdk list java` 查看可用版本,使用 `sdk install java` 安装特定版本,并通过 `sdk use java` 切换版本。此外,还可以设置默认 JDK 版本,确保新终端会话中自动使用指定版本。验证版本切换是否成功,只需运行 `java -version` 命令即可。
749 1
|
12月前
|
IDE 网络安全 开发工具
IDE之pycharm:专业版本连接远程服务器代码,并配置远程python环境解释器(亲测OK)。
本文介绍了如何在PyCharm专业版中连接远程服务器并配置远程Python环境解释器,以便在服务器上运行代码。
2647 0
IDE之pycharm:专业版本连接远程服务器代码,并配置远程python环境解释器(亲测OK)。
|
自然语言处理 算法 OLAP
阿里云PAI大模型RAG对话系统最佳实践
本文为大模型RAG对话系统最佳实践,旨在指引AI开发人员如何有效地结合LLM大语言模型的推理能力和外部知识库检索增强技术,从而显著提升对话系统的性能,使其能更加灵活地返回用户查询的内容。适用于问答、摘要生成和其他依赖外部知识的自然语言处理任务。通过该实践,您可以掌握构建一个大模型RAG对话系统的完整开发链路。
|
12月前
|
XML 前端开发 JavaScript
如何制作一个自己的网站?
在今天的互联网时代,网站展示已经是一个很基础的营销工具。不管是企业、还是个人,如何制作一个自己的网站?本文将会提供一个全面的基础制作网页教程,教你如何从零开始制作网页。
1180 0
|
消息中间件 Java 数据库连接
Hologres 数据导入与导出的最佳实践
【9月更文第1天】Hologres 是一款高性能的实时数仓服务,旨在提供快速的数据分析能力。无论是从外部数据源导入数据还是将数据导出至其他系统,都需要确保过程既高效又可靠。本文将详细介绍如何有效地导入数据到 Hologres 中,以及如何从 Hologres 导出数据。
480 1
|
Java Maven
intellij idea如何查看项目maven依赖关系图
这篇文章介绍了如何在IntelliJ IDEA中查看项目的Maven依赖关系图,包括使用Maven工具栏和相关操作来展示和查看依赖细节。
|
机器学习/深度学习 自然语言处理
一文搞懂Transformer的位置编码
一文搞懂Transformer的位置编码
4001 2