开放下载!《阿里语音与信号处理技术》精选集

简介: 据说,一位阿里员工买了天猫精灵给家中老父听相声,回家一看,老父竟然把天猫精灵绑在了牛棚里?!

据说,一位阿里员工买了天猫精灵给家中老父听相声,回家一看,老父竟然把天猫精灵绑在了牛棚里?!
老父说:“放在牛棚,开灯方便,还能随时给牛听音乐。”据说听了音乐的牛,长得更肥了。

智能音箱为什么能掀起一场购买热潮?正是因为,它能听,能看,能说,能感觉,人机交互成为未来的一个趋势,而支撑这一切的正是语音技术。

不管是语音文书速记、在线购物、儿童教育或者是智能家居,它正在让生活变得更加便捷、智能以及富有趣味,甚至离不开。为了帮助更多技术人深入了解AI语音的落地实践,阿里技术发布《阿里机器智能:语音与信号处理技术精选专辑》电子书。这本书共计五篇内容,分别涵盖了语音识别、语音合成以及情感识别三个语音技术领域的重要方向。

image

点此下载:https://yq.aliyun.com/download/3588

为什么建议你阅读本书?

离开具体问题,谈方法论只能得到一堆空洞而无用的原理。只有在真实的案例中,发现问题,理清思路,解决问题,总结方法,才能将经验完美地内化,成为自我成长和专业精进的养料。本书包含五篇论文,每篇论文都提出了具体问题以及解决方法,相信能够在最短的时间内,帮助你建立语音技术框架,了解相关原理。

本书的五篇论文皆被 ICASSP2018 收录,保证了内容的优质性。ICASSP 是国际语音领域最著名、影响力最大的学术会议之一,侧重声学、语音信号以及语音建模相关的学术讨论,包含了语音技术相关的各个方面,堪称国际语音行业的一个年度盛会。

image

本书目录

该书有哪些精彩干货?

《基于深层前馈序列记忆网络,如何将语音合成速度提升四倍?》中,作者提出了一种基于深度前馈序列记忆网络的语音合成系统,该系统在达到与基于双向长短时记忆单元的语音合成系统一致的主观听感的同时,模型大小只有后者的四分之一,且合成速度是后者的四倍,非常适合于对内存占用和计算效率非常敏感的端上产品环境。

《为了更精确的情感识别,A-LSTM 出现了》中,作者针对 LSTM 时间依赖局限性问题,提出了高级长短期记忆网络(advanced LSTM (A-LSTM))模型,利用线性组合,将若干时间点的本层状态都结合起来,以打破传统 LSTM 的这种局限性。在这篇文章中,我们将 A-LSTM 应用于情感识别中。实验结果显示,与应用传统 LSTM 的系统相比,应用了 A-LSTM 的系统能相对提高5.5%的识别率。

《为了让机器听懂“长篇大论”,阿里工程师构建了新模型》中,作者提出了一种改进的前馈序列记忆神经网络结构,称之为深层前馈序列记忆神经网络(DFSMN),进一步地将深层前馈序列记忆神经网络和低帧率(LFR)技术相结合构建了 LFR-DFSMN 语音识别声学模型。该模型在大词汇量的英文识别和中文识别任务上都可以取得相比于目前最流行的基于长短时记忆单元的双向循环神经网络(BLSTM)的识别系统显著的性能提升。而且 LFR-DFSMN 在训练速度,模型参数量,解码速度,而且模型的延时上相比于 BLSTM 都具有明显的优势。

《示范了200句后,我的声音“双胞胎”诞生了!》中,作者提出了基于线性网络的语音合成说话人自适应算法,该算法对每个说话人学习特定的线性网络,从而获得属于目标说话人的声学模型,通过该算法,使用 200 句目标说话人的自适应语料训练的说话人自适应系统能够获得和使用 1000 句训练的说话人相关系统相近的合成效果。

《朋友,我能分享你的喜怒吗?阿里语音情感识别框架揭秘》中,作者提出了一套包含多个子系统的复合情感识别框架。这一框架会深入挖掘输入语音中与情感相关的各个方面的信息,从而提高系统的顽健性。

近年来,语音领域的相关产品问题随之暴露和慢慢地被解决,整个语音技术已经逐渐走到了实际应用的阶段,越来越多的语音设备产品问世和火爆也说明了这一点。希望通过本书,能和学术界、工业界更多的同行共同探讨、共同进步,衷心地希望语音技术继续百家争鸣、百花齐放,早日把靠谱的语音交互能力带到各行各业、带进千家万户,真正地帮助到人们的工作和生活!

原文发布时间为: 2019-06-05
本文作者: 与你共进步的
本文来自云栖社区合作伙伴“ 阿里技术”,了解相关信息可以关注“ 阿里技术”。

相关文章
|
移动开发 JavaScript 前端开发
【前后端实战项目】带你从入门到实战全面掌握 uni-app
【前后端实战项目】带你从入门到实战全面掌握 uni-app
|
设计模式 前端开发 JavaScript
观察者模式 vs 发布-订阅模式:两种设计模式的对决!
欢迎来到前端入门之旅!这个专栏是为那些对Web开发感兴趣、刚刚开始学习前端的读者们打造的。无论你是初学者还是有一些基础的开发者,我们都会在这里为你提供一个系统而又亲切的学习平台。我们以问答形式更新,为大家呈现精选的前端知识点和最佳实践。通过深入浅出的解释概念,并提供实际案例和练习,让你逐步建立起一个扎实的基础。无论是HTML、CSS、JavaScript还是最新的前端框架和工具,我们都将为你提供丰富的内容和实用技巧,帮助你更好地理解并运用前端开发中的各种技术。
|
人工智能 网络协议 安全
Apache(httpd)的简介、安装以及如何使用(上)
Apache(httpd)的简介、安装以及如何使用(上)
1068 0
Apache(httpd)的简介、安装以及如何使用(上)
|
11月前
|
分布式计算 DataWorks 搜索推荐
聊聊DataWorks这个大数据开发治理平台
聊聊DataWorks这个大数据开发治理平台
317 2
|
网络协议 文件存储 Windows
Windows Server 2019 FTP服务器搭建
Windows Server 2019 FTP服务器搭建
400 0
|
数据采集 数据可视化 数据挖掘
NumPy在数据分析中的核心应用
【4月更文挑战第17天】NumPy是Python数据分析基础库,核心应用包括数据结构化、预处理、统计分析和可视化。它提供`ndarray`多维数组对象及灵活索引,用于数据存储和处理。数据预处理支持缺失值处理,统计分析涵盖描述性统计和相关性分析。虽不直接支持数据可视化,但能与Matplotlib等库集成绘制图表。掌握NumPy能提升数据分析效率,助于挖掘数据价值。
|
安全 Java API
Spring版本命名规则
常见软件的版本命名举例如下表所示。
360 0
|
存储 人工智能 边缘计算
云计算大势所趋:从基础到未来,探析发展趋势
云计算大势所趋:从基础到未来,探析发展趋势
|
存储 运维 安全
开源盛行:为什么学习国产达梦数据库?
开源盛行:为什么学习国产达梦数据库?
523 0