预告:语音交互前沿技术分享——INTERSPEECH 2017系列

简介: iDST语音团队和云栖社区将共同打造一系列语音技术分享会,旨在为大家分享INTERSPEECH2017会议上语音技术各个方面的进展,首场将于10月25日(本周三)晚上7点半正式开始。

今年的INTERSPEECH于8月20日至24日在瑞典的斯德哥尔摩顺利召开,共历时5天。据了解,本次大会共有839篇论文被大会接受,分成109个session。众多的高校研究机构和著名的公司纷纷在本次会议上介绍了各自最新的技术、系统和相关产品,而阿里巴巴集团作为钻石赞助商也派出了强大的阵容前往现场。


那么作为语音交互领域顶级的国际会议,我们可以从INTERSPEECH 2017中看到哪些技术前沿趋势呢?为此,iDST语音团队和云栖社区将共同打造一系列语音技术分享会,旨在为大家分享INTERSPEECH2017会议上语音技术各个方面的进展,具体安排如下:

首期分享将在10月25日(本周三)晚上7点半正式开始,欢迎关注语音识别技术的同学报名参与(报名请戳这里)!

直播主题:语音识别技术之自适应技术

内容简介:语音识别技术是将语音转换成文字的技术,而说话人自适应技术的目的是降低语音识别中不同说话人之间的差异性带来的影响,这些差异性主要包括生理构造、语音环境和说话人情绪等。本次直播主要向大家介绍INTERSPEECH2017会议中的语音识别的自适应技术的一些研究成果。

观众受益:了解语音识别中的自适应技术及该技术的最新研究成果

讲师:黄智颖(云昔),阿里巴巴-iDST算法工程师


注:INTERSPEECH (Annual Conference of the International Speech Communication Association)是由国际语音通信协会ISCA(International Speech Communication Association)组织的语音研究领域的顶级会议之一,和ICASSP (International Conference on Acoustics, Speech, and Signal Processing)并称为国际语音领域最著名、影响力最大的两个学术会议。相对于ICASSP会议侧重声学、语音信号相关的学术讨论,INTERSPEECH会议的讨论范畴则包罗万象,从信号处理到语音识别、语音合成,以及各种相关的前处理、后处理方法,再到口语理解和语音交互,包含了语音技术相关的各个方面,堪称国际语音行业的一个年度盛会。

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
目录
相关文章
|
机器学习/深度学习 人工智能 小程序
|
3月前
|
机器学习/深度学习 人工智能 人机交互
ICML 2024:AI也会刷抖音!清华领衔发布短视频全模态理解新模型
【8月更文挑战第20天】SALMONN是由清华大学在ICML 2024发表的一种开创性的多模态模型,专为短视频全模态理解设计。它集成了预训练文本大模型与语音、音频编码器,能直接处理多样音频输入,在自动语音识别、翻译、情绪识别等任务中表现出色。SALMONN展现了令人兴奋的新能力,如翻译未训练语言和基于语音的问答。通过少样本激活微调,可进一步发掘其跨模态潜能。尽管如此,模型的计算成本和泛化能力仍是待克服的挑战。SALMONN标志着AI在具备通用听觉理解方面迈出重要一步。[论文链接: https://arxiv.org/abs/2310.13289]
75 3
|
3月前
|
人工智能 算法 数据挖掘
技术沙龙直播|3D-Speaker多模态说话人开源详解
技术沙龙直播|3D-Speaker多模态说话人开源详解
|
存储 人工智能 BI
倒计时1天!《AI模型时代的多模态数据存储、管理和应用》特邀主题演讲邀你共同收看!(文末送好礼)
QCon 全球软件开发大会·北京站将于 9 月 3 - 5 日正式开幕,评论区留言免费送大会3日联票(包3天午餐);另外还有定制充电宝和限量款奥运云小宝盲盒等你拿!
466 0
|
机器学习/深度学习 人工智能 自然语言处理
AI公开课:19.03.06何晓冬博士《自然语言与多模态交互前沿技术》课堂笔记以及个人感悟
AI公开课:19.03.06何晓冬博士《自然语言与多模态交互前沿技术》课堂笔记以及个人感悟
|
机器学习/深度学习 人工智能 算法
猿桌会 | 语音识别技术分享
来自云从科技的语音识别资深算法研究员杨学锐将为我们分享语音识别技术的相关内容
800 0
|
人工智能 达摩院
达摩院特别版-视觉AI训练营第五天
达摩院特别版-视觉AI训练营第五天
734 0
|
人工智能 达摩院
达摩院特别版-视觉AI训练营第四天
达摩院特别版-视觉AI训练营第四天
899 0
LiveVideoStackCon讲师热身分享 ( 九 ) —— 51Talk音视频技术思考及非典型挑战
LiveVideoStackCon 2018音视频技术大会是每年的多媒体技术人的盛宴,为了让参会者与大会讲师更多互动交流,我们推出了LiveVideoStackCon讲师热身分享第一季,在每周四晚19:30,邀请1名大会讲师进行线上分享技术干货,解答热点问题。
1591 0
下一篇
无影云桌面