「阿里语音AI」十篇论文入选语音顶会INTERSPEECH2020-阿里云开发者社区

「阿里语音AI」十篇论文入选语音顶会INTERSPEECH2020

2021-07-09 454

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 「阿里语音AI」十篇论文入选语音顶会INTERSPEECH2020，论文研究方向包含语音识别，语音合成，说话人识别，语音增强和信号处理

来源阿里语音AI 公众号

「阿里语音AI」十篇论文入选语音顶会INTERSPEECH2020，论文研究方向包含语音识别，语音合成，说话人识别，语音增强和信号处理。后续我们会进行一些论文的详细解读，敬请期待～～

1）语音识别

• Zhifu Gao, Shiliang Zhang, Ming Lei, Ian McLoughlin, SAN-M: Memory Equipped Self-Attention for End-to-End Speech Recognition.

• Shiliang Zhang, Zhifu Gao, Haoneng Luo, Ming Lei, Jie Gao, Zhijie Yan, Lei Xie, Streaming Chunk-Aware Multihead Attention for Online End-to-End Speech Recognition

• Yingzhu Zhao, Chongjia Ni, Cheung-Chi LEUNG, Shafiq Joty, Eng Siong Chng and Bin Ma, Cross Attention with Monotonic Alignment for Speech Transformer

• Yingzhu Zhao, Chongjia Ni, Cheung-Chi LEUNG, Shafiq Joty, Eng Siong Chng and Bin Ma, Speech Transformer with Speaker Aware Persistent Memory

• Yingzhu Zhao, Chongjia Ni, Cheung-Chi LEUNG, Shafiq Joty, Eng Siong Chng and Bin Ma, Universal Speech Transformer

2）语音合成

• Shengkui Zhao, Trung Hieu Nguyen, Hao Wang and Bin Ma, Towards Natural Bilingual and Code-Switched Speech Synthesis Based on Mix of Monolingual Recordings and Cross-Lingual Voice Conversion

3）说话人识别

• Siqi Zheng, Yun Lei, Hongbin Suo, Phonetically-Aware Coupled Network For Short Duration Text-independent Speaker Verification.

4）语音增强

• Zhihao Du, Ming Lei, Jiqing Han, Shiliang Zhang, Self-supervised Adversarial Multi-task Learning for Vocoder-based Monaural Speech Enhancement

5）信号处理

• Weilong Huang and Jinwei Feng，Differential Beamforming for Uniform Circular Array with Directional Microphones

• Ziteng Wang, Yueyue Na, Zhang Liu, Yun Li, Biao Tian and Qiang Fu, A Semi-blind Source Separation Approach for Speech Dereverberation.

达摩院语音实验室介绍

致力于语音识别、语音合成、语音唤醒、声学设计及信号处理、声纹识别、音频事件检测等下一代人机语音交互基础理论、关键技术和应用系统的研究工作。形成了覆盖电商、新零售、司法、交通、制造等多个行业的产品和解决方案，为消费者、企业和政府提供高质量的语音交互服务。

主要研究方向

语音识别及语音唤醒

面向家居、车载、办公室、公共空间、强噪声、近远场等复杂场景，研究多语言、多模态、端云一体的语音识别及唤醒技术，通过平台方式提供丰富的开发者定制模型自学习能力，让业务具备语音模型的自定制能力。

语音合成

研究高音质、高表现力的语音合成技术及个性化语音合成，说话人转换技术，主要应用于语音交互、信息播报和篇章朗读等场景。

声学及信号处理

研究声学器件、结构和硬件方案设计，基于物理建模和机器学习的声源定位、语音增强和分离技术、以及多模态和分布式信号处理等。

声纹识别与音频事件检测

研究文本相关/无关声纹识别、动态密码、近场/远场环境声纹识别、性别年龄画像、大规模声纹检索、语种方言识别、音频指纹检索、音频事件分析等。

口语理解及对话系统

基于自然语言理解技术，构建语音交互场景下的口语理解和对话系统，提供给开发者自纠错能力及对话定制能力。

端云一体语音交互平台

综合应用声学、信号、唤醒、识别、理解、对话、合成等原子能力，构建全链路、跨平台、低成本、高可复制性、端云一体的分布式语音交互平台，帮助第三方具备可扩展定制化的场景能力。

多模态人机交互

业内首创在公众场所强噪音的环境下实现免唤醒远场语音交互，并结合流式多轮多意图口语理解，业务知识图谱自适应等技术，面向公共空间真实复杂的场景提供自然语音交互体验。

智能语音产品官网链接：

https://ai.aliyun.com/nls

「阿里语音AI」十篇论文入选语音顶会INTERSPEECH2020