开放下载!《阿里语音与信号处理技术》精选集

简介: 据说,一位阿里员工买了天猫精灵给家中老父听相声,回家一看,老父竟然把天猫精灵绑在了牛棚里?!

据说,一位阿里员工买了天猫精灵给家中老父听相声,回家一看,老父竟然把天猫精灵绑在了牛棚里?!
老父说:“放在牛棚,开灯方便,还能随时给牛听音乐。”据说听了音乐的牛,长得更肥了。

智能音箱为什么能掀起一场购买热潮?正是因为,它能听,能看,能说,能感觉,人机交互成为未来的一个趋势,而支撑这一切的正是语音技术。

不管是语音文书速记、在线购物、儿童教育或者是智能家居,它正在让生活变得更加便捷、智能以及富有趣味,甚至离不开。为了帮助更多技术人深入了解AI语音的落地实践,阿里技术发布《阿里机器智能:语音与信号处理技术精选专辑》电子书。这本书共计五篇内容,分别涵盖了语音识别、语音合成以及情感识别三个语音技术领域的重要方向。

image

点此下载:https://yq.aliyun.com/download/3588

为什么建议你阅读本书?

离开具体问题,谈方法论只能得到一堆空洞而无用的原理。只有在真实的案例中,发现问题,理清思路,解决问题,总结方法,才能将经验完美地内化,成为自我成长和专业精进的养料。本书包含五篇论文,每篇论文都提出了具体问题以及解决方法,相信能够在最短的时间内,帮助你建立语音技术框架,了解相关原理。

本书的五篇论文皆被 ICASSP2018 收录,保证了内容的优质性。ICASSP 是国际语音领域最著名、影响力最大的学术会议之一,侧重声学、语音信号以及语音建模相关的学术讨论,包含了语音技术相关的各个方面,堪称国际语音行业的一个年度盛会。

image

本书目录

该书有哪些精彩干货?

《基于深层前馈序列记忆网络,如何将语音合成速度提升四倍?》中,作者提出了一种基于深度前馈序列记忆网络的语音合成系统,该系统在达到与基于双向长短时记忆单元的语音合成系统一致的主观听感的同时,模型大小只有后者的四分之一,且合成速度是后者的四倍,非常适合于对内存占用和计算效率非常敏感的端上产品环境。

《为了更精确的情感识别,A-LSTM 出现了》中,作者针对 LSTM 时间依赖局限性问题,提出了高级长短期记忆网络(advanced LSTM (A-LSTM))模型,利用线性组合,将若干时间点的本层状态都结合起来,以打破传统 LSTM 的这种局限性。在这篇文章中,我们将 A-LSTM 应用于情感识别中。实验结果显示,与应用传统 LSTM 的系统相比,应用了 A-LSTM 的系统能相对提高5.5%的识别率。

《为了让机器听懂“长篇大论”,阿里工程师构建了新模型》中,作者提出了一种改进的前馈序列记忆神经网络结构,称之为深层前馈序列记忆神经网络(DFSMN),进一步地将深层前馈序列记忆神经网络和低帧率(LFR)技术相结合构建了 LFR-DFSMN 语音识别声学模型。该模型在大词汇量的英文识别和中文识别任务上都可以取得相比于目前最流行的基于长短时记忆单元的双向循环神经网络(BLSTM)的识别系统显著的性能提升。而且 LFR-DFSMN 在训练速度,模型参数量,解码速度,而且模型的延时上相比于 BLSTM 都具有明显的优势。

《示范了200句后,我的声音“双胞胎”诞生了!》中,作者提出了基于线性网络的语音合成说话人自适应算法,该算法对每个说话人学习特定的线性网络,从而获得属于目标说话人的声学模型,通过该算法,使用 200 句目标说话人的自适应语料训练的说话人自适应系统能够获得和使用 1000 句训练的说话人相关系统相近的合成效果。

《朋友,我能分享你的喜怒吗?阿里语音情感识别框架揭秘》中,作者提出了一套包含多个子系统的复合情感识别框架。这一框架会深入挖掘输入语音中与情感相关的各个方面的信息,从而提高系统的顽健性。

近年来,语音领域的相关产品问题随之暴露和慢慢地被解决,整个语音技术已经逐渐走到了实际应用的阶段,越来越多的语音设备产品问世和火爆也说明了这一点。希望通过本书,能和学术界、工业界更多的同行共同探讨、共同进步,衷心地希望语音技术继续百家争鸣、百花齐放,早日把靠谱的语音交互能力带到各行各业、带进千家万户,真正地帮助到人们的工作和生活!

原文发布时间为: 2019-06-05
本文作者: 与你共进步的
本文来自云栖社区合作伙伴“ 阿里技术”,了解相关信息可以关注“ 阿里技术”。

相关文章
|
7月前
|
人工智能 搜索推荐 语音技术
有道开源的国产语音库EmotiVoice爆火了!具有情绪控制功能的语音合成引擎!
有道开源的国产语音库EmotiVoice爆火了!具有情绪控制功能的语音合成引擎!
1530 0
|
人工智能 算法
ICASSP 2022 | 89.46%检出率,网易云信音频实验室提出全球首个AI啸叫检测方案(1)
ICASSP 2022 | 89.46%检出率,网易云信音频实验室提出全球首个AI啸叫检测方案
411 0
|
机器学习/深度学习 数据采集 人工智能
ICASSP 2022 | 89.46%检出率,网易云信音频实验室提出全球首个AI啸叫检测方案(2)
ICASSP 2022 | 89.46%检出率,网易云信音频实验室提出全球首个AI啸叫检测方案
206 0
|
机器学习/深度学习 人工智能 算法
“柯南领结”变成现实,字节跳动智创语音团队SAMI发布新一代实时AI变声方案
“柯南领结”变成现实,字节跳动智创语音团队SAMI发布新一代实时AI变声方案
345 0
|
机器学习/深度学习 人工智能 算法
透过天猫精灵看阿里AI
透过天猫精灵看阿里AI
205 0
透过天猫精灵看阿里AI
|
机器学习/深度学习 人工智能 自然语言处理
科大讯飞的1024:语音技术进一步突破,发布专用芯片
1024 作为程序员的节日被世人所知,而科大讯飞也会在每年这个时候举办开发者节日和相关活动。在今年的开发者节上,科大讯飞发布了更多关于平台,产品和技术方面的信息。
529 0
科大讯飞的1024:语音技术进一步突破,发布专用芯片
|
人工智能 达摩院 算法
达摩院公布语音AI新进展:移动端也能实现逼近真人的语音交互体验
9月18日,在2020云栖大会上,达摩院公布了语音AI技术的最新突破:端上语音识别和语音合成能力首次达到媲美云端的水平,这意味着未来个人用户在移动终端即可轻松体验逼近真人的语音技术。据介绍,达摩院最新的语音技术已在淘宝直播、钉钉会议、高德导航等场景大规模应用,正全面对外开放。
1889 0
达摩院公布语音AI新进展:移动端也能实现逼近真人的语音交互体验
|
机器人 Java 程序员
首次公开!三代技术人深度对话,《云上朗读者》开放下载
阿里云 MVP历时上百天,走近各行各业一线技术人,倾听他们成功背后的故事。蒋江伟(小邪)推荐——18位在前线的阿里云 MVP不为人知的心路历程,科技发展与经济格局的变化,抓住时代机遇勇于创新,从容面对挑战,走近三代技术人解锁他们对新基建与云上未来的深刻洞见。
27432 0
首次公开!三代技术人深度对话,《云上朗读者》开放下载
下一篇
DataWorks