「阿里语音AI」十篇论文入选语音顶会INTERSPEECH2020

简介: 「阿里语音AI」十篇论文入选语音顶会INTERSPEECH2020,论文研究方向包含语音识别,语音合成,说话人识别,语音增强和信号处理
来源 阿里语音AI 公众号

「阿里语音AI」十篇论文入选语音顶会INTERSPEECH2020,论文研究方向包含语音识别,语音合成,说话人识别,语音增强和信号处理。后续我们会进行一些论文的详细解读,敬请期待~~

1)语音识别

• Zhifu Gao, Shiliang Zhang, Ming Lei, Ian McLoughlin, SAN-M: Memory Equipped Self-Attention for End-to-End Speech Recognition.

• Shiliang Zhang, Zhifu Gao, Haoneng Luo, Ming Lei, Jie Gao, Zhijie Yan, Lei Xie, Streaming Chunk-Aware Multihead Attention for Online End-to-End Speech Recognition

• Yingzhu Zhao, Chongjia Ni, Cheung-Chi LEUNG, Shafiq Joty, Eng Siong Chng and Bin Ma, Cross Attention with Monotonic Alignment for Speech Transformer

• Yingzhu Zhao, Chongjia Ni, Cheung-Chi LEUNG, Shafiq Joty, Eng Siong Chng and Bin Ma, Speech Transformer with Speaker Aware Persistent Memory

• Yingzhu Zhao, Chongjia Ni, Cheung-Chi LEUNG, Shafiq Joty, Eng Siong Chng and Bin Ma, Universal Speech Transformer

2)语音合成

• Shengkui Zhao, Trung Hieu Nguyen, Hao Wang and Bin Ma, Towards Natural Bilingual and Code-Switched Speech Synthesis Based on Mix of Monolingual Recordings and Cross-Lingual Voice Conversion

3)说话人识别

• Siqi Zheng, Yun Lei, Hongbin Suo, Phonetically-Aware Coupled Network For Short Duration Text-independent Speaker Verification.

4)语音增强

• Zhihao Du, Ming Lei, Jiqing Han, Shiliang Zhang, Self-supervised Adversarial Multi-task Learning for Vocoder-based Monaural Speech Enhancement

5)信号处理

• Weilong Huang and Jinwei Feng,Differential Beamforming for Uniform Circular Array with Directional Microphones

• Ziteng Wang, Yueyue Na, Zhang Liu, Yun Li, Biao Tian and Qiang Fu, A Semi-blind Source Separation Approach for Speech Dereverberation.

image.png

达摩院语音实验室介绍

致力于语音识别、语音合成、语音唤醒、声学设计及信号处理、声纹识别、音频事件检测等下一代人机语音交互基础理论、关键技术和应用系统的研究工作。形成了覆盖电商、新零售、司法、交通、制造等多个行业的产品和解决方案,为消费者、企业和政府提供高质量的语音交互服务。

主要研究方向

语音识别及语音唤醒

面向家居、车载、 办公室、公共空间、强噪声、近远场等复杂场景,研究多语言、多模态、端云一体的语音识别及唤醒技术,通过平台方式提供丰富的开发者定制模型自学习能力,让业务具备语音模型的自定制能力。

语音合成

研究高音质、高表现力的语音合成技术及个性化语音合成,说话人转换技术,主要应用于语音交互、信息播报和篇章朗读等场景。

声学及信号处理

研究声学器件、结构和硬件方案设计,基于物理建模和机器学习的声源定位、语音增强和分离技术、以及多模态和分布式信号处理等。

声纹识别与音频事件检测

研究文本相关/无关声纹识别、动态密码、近场/远场环境声纹识别、性别年龄画像、大规模声纹检索、语种方言识别、音频指纹检索、音频事件分析等。

口语理解及对话系统

基于自然语言理解技术,构建语音交互场景下的口语理解和对话系统,提供给开发者自纠错能力及对话定制能力。

端云一体语音交互平台

综合应用声学、信号、唤醒、识别、理解、对话、合成等原子能力,构建全链路、跨平台、低成本、高可复制性、端云一体的分布式语音交互平台,帮助第三方具备可扩展定制化的场景能力。

多模态人机交互

业内首创在公众场所强噪音的环境下实现免唤醒远场语音交互,并结合流式多轮多意图口语理解,业务知识图谱自适应等技术,面向公共空间真实复杂的场景提供自然语音交互体验。

智能语音产品官网链接:

https://ai.aliyun.com/nls

image.png

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
1月前
|
人工智能 自然语言处理 自动驾驶
阿里云入选Gartner® AI代码助手魔力象限挑战者象限
Gartner发布业界首个AI代码助手魔力象限,全球共12家企业入围,阿里云,成为唯一进入挑战者象限的中国科技公司。对阿里云而言,此次入选代表了其通义灵码在产品功能和市场应用等方面的优秀表现。
|
1月前
|
人工智能
三文带你轻松上手鸿蒙的AI语音03-文本合成声音
三文带你轻松上手鸿蒙的AI语音03-文本合成声音
40 1
三文带你轻松上手鸿蒙的AI语音03-文本合成声音
|
1月前
|
消息中间件 人工智能 Cloud Native
|
1月前
|
存储 人工智能 开发者
三文带你轻松上手鸿蒙的AI语音02-声音文件转文本
三文带你轻松上手鸿蒙的AI语音02-声音文件转文本
74 0
三文带你轻松上手鸿蒙的AI语音02-声音文件转文本
|
1月前
|
人工智能 语音技术 数据格式
三文带你轻松上手鸿蒙的AI语音01-实时语音识别
三文带你轻松上手鸿蒙的AI语音01-实时语音识别
31 0
三文带你轻松上手鸿蒙的AI语音01-实时语音识别
|
1月前
|
人工智能 编解码 文字识别
阿里国际AI开源Ovis1.6,多项得分超GPT-4o-mini!
阿里国际AI团队提出了一种名为Ovis (Open VISion)的新型多模态大模型的架构。
|
1月前
|
人工智能 Ubuntu Linux
安装阿里图文融合AI - AnyText心路历程(安装失败告终,心痛!)
安装阿里图文融合AI - AnyText心路历程(安装失败告终,心痛!)
|
4天前
|
机器学习/深度学习 人工智能 自然语言处理
当前AI大模型在软件开发中的创新应用与挑战
2024年,AI大模型在软件开发领域的应用正重塑传统流程,从自动化编码、智能协作到代码审查和测试,显著提升了开发效率和代码质量。然而,技术挑战、伦理安全及模型可解释性等问题仍需解决。未来,AI将继续推动软件开发向更高效、智能化方向发展。
|
8天前
|
机器学习/深度学习 人工智能 自然语言处理
AI在医疗领域的应用及其挑战
【10月更文挑战第34天】本文将探讨人工智能(AI)在医疗领域的应用及其面临的挑战。我们将从AI技术的基本概念入手,然后详细介绍其在医疗领域的各种应用,如疾病诊断、药物研发、患者护理等。最后,我们将讨论AI在医疗领域面临的主要挑战,包括数据隐私、算法偏见、法规合规等问题。
28 1
|
6天前
|
机器学习/深度学习 人工智能 算法
AI在医疗领域的应用与挑战
本文探讨了人工智能(AI)在医疗领域的应用,包括其在疾病诊断、治疗方案制定、患者管理等方面的优势和潜力。同时,也分析了AI在医疗领域面临的挑战,如数据隐私、伦理问题以及技术局限性等。通过对这些内容的深入分析,旨在为读者提供一个全面了解AI在医疗领域现状和未来发展的视角。
32 10

热门文章

最新文章