摘取人工智能的明珠:达摩院语音技术发展之路

简介: 达摩院语音实验室的使命是为阿里巴巴经济体供给无处不在的语音交互智能服务,并将语音技术予以阿里云客户,进一步拓展语音技术行业边界。在阿里CIO学院攻“疫”技术公益大咖说的第十八场直播中达摩院语音实验室负责人鄢志杰将为大家讲解达摩院语音技术发展之路,一窥语音技术的大图、经济体内应用,以及通过阿里云对外进行商业输出的全貌。

演讲嘉宾简介:鄢志杰,达摩院语音实验室负责人,IEEE senior member

以下内容根据演讲视频以及PPT整理而成。
观看回放 https://developer.aliyun.com/live/2640
本次分享主要围绕以下三个方面:
一、达摩院语音实验室使命
二、打造完全自主全链路技术栈
三、案例分享

一、达摩院语音实验室使命

达摩院可能是大家即熟悉又陌生的组织。自2017年开始,达摩院走过了2年多的时间,正如马云老师在2017年云栖大会上所提到的,达摩院的定位即不是Research for fun,也不应该是Research for profit,而是Research for profit and fun。那么什么样的语音相关的Problem 是即profit 又fun的?

1.语音交互无处不在

达摩院语音实验室本着让语音交互无处不在的宗旨,对语音技术进行探索和研究,将过往的实验室模型和技术应用到商业场景中,不断打破行业边界。从最开始的借助头戴式耳麦和桌面PC进行语音识别,逐渐演化到使用手机就可以进行精确的语音识别,以及与远距离智能音响、智能冰箱、智能机器人等进行语音交互,语音技术在不断的解锁新的使用场景。达摩院语音实验室也希望不断的延伸语音技术的触角,让语音技术渗透到人们生活的方方面面,连接人与互联网。
image.png
2.予以行业实践者扩展语音技术边界
达摩院语音实验室的另一个使命是予以行业实践者扩展语音技术边界。传统行业中,语音技术更多是掌握在大公司手中,并服务于更宏大的系统中,如微软研究将语音技术研发为Windows 和Office的输入工具。但随着技术的发展,阿里希望为更多行业实践着提供开箱即用的语音技术,将语音技术拓展到其它的行业中,实现语义技术更高的商业价值。“以产品为核心,已技术为基础,以市场为导向”是达摩院语音实验室的口号,从这句话可以看出达摩院与传统研究院存在诸多不同。达摩院投入了非常多的人力,物力研究核心技术,同时将researcher 和engineer放在同一个组织中,使得最源头的研究迅速转化为产品,同时通过产品收集反馈,为后续研究选题提供基础。最后希望通过市场为导向,指导研发的选题,使得研究可以与商业世界产生联系,以最快的速度产品化,实现更高的商业价值。

二、打造完全自主全链路技术栈

阿里自2014年开始着手研究语音技术,并迅速组建了世界级科学家和工程师的专业团队。团队成员多元化,来自两岸三国五地,包括北京、杭州、西雅图、硅谷和新加坡等,海纳百川,发挥众家所长。阿里语音AI一直强调搭建全链路的技术栈,甚至从最源头的声学设计、麦克风阵列设计、硬件电路到上层的语音合成、语音识别、以及问答系统、以及最上层的云端工业级语音交互系统定制平台都配有专门的团队。之所以没有借助第三方企业的技术是因为语音不仅是一种科学还是一种技术,除了解决问答的问题,更多的是应该提供更好的语音交互体验。只有下苦功,投入很多人力物力搭建全链路技术栈才能使得最终的语音交互系统效果更好、同时提供优良的用户体验。

1.语音技术的作用

语音技术是很重要的桥梁,包括人与人之间的沟通和人与互联网的交互,语音都是最自然,最便捷的沟通桥梁。阿里云语音技术团队的整体目标定位是为阿里巴巴经济体及阿里云客户,供给无处不在的语音交互智能服务。其中服务是通过统一的平台型产品,同时服务阿里内部及外部用户。供给是通过提供具备优秀语音原子能力和交互体验的平台型产品,以“被集成”的方式服务用户,帮助他们在其所在的行业中创造价值。并且相信在未来,所有的空间,包括家居、车载、办公、以及公共空间,语音的触点将无处不在。

2.阿里巴巴经济体语音技术大图

语音实验室最核心的交付物是阿里语音AI,阿里云对外的客户可以同时享受到与内部服务同样的技术。下图展示了阿里语音AI的技术大图,其中语音技术、交互技术、工程技术作为基础研发工作会沉淀为平台产品,如语音原子能力服务、语音交互智能服务和智能拾音硬件等。语音原子能力服务包括语音识别、语音合成、声纹等比较自恰的服务。这些服务进行组合,构成语音交互的服务。目前,达摩院语音实验室正在研究通过拾音硬件将非结构化的语音信息转化成结构化信息。最上层则会服务于各种各样业务的应用。

image.png
阿里云通过多年的积累,也获得了较为显著的成果。通过与全球领先的语音智能公司的同场竞技,阿里语音AI与谷歌、亚马逊等公司同时被誉为2019年Top 10 breakthrough technologies之一。通过大家在研发侧与应用侧的努力,使得阿里语音AI在技术和应用层面都走在了业界领先位置。
image.png

3.阿里语音AI技术

语音识别技术:语音识别技术是研究最基础的Language model,Acoustic model,Decoder和Online service 的模型组合。通过模型的演化和迭代,制造更多的应用。好的模型意味着更高的accuracy,更低的消耗,以合理的成本实现语音AI的云服务化。
image.png
语音合成技术:语音合成与语音识别相反,指将语音转成文字。达摩院语音实验室自主研发的KAN-TTS的语音合成技术,融合了目前主流的端到端的TTS技术和传统TTS技术,从多个方面改进了语音合成,提升了语音合成的自然度。
image.png
语音对话技术:阿里也在不断的提升语音对话技术,无论是ESIM的开源,还是取得DSTC-7冠军,异或取得Commonsense AQ冠军,都是阿里在语音对话技术方面的自主研发所取得的成果。
image.png

三、案例分享

1.对内服务案例

阿里经济体本身就是语音技术可以施展才华的广阔场景。下图介绍了在阿里巴巴经济体对内服务的典型案例。如淘宝和支付宝的语音助手,可以帮助服务电话用户;高德语音助手为用户提供唤醒功能和语音导航功能;钉钉可以将用户的输入语音实时传化为文本,解放接收端的压力;以及目前处于市场领先地位的天猫精灵智能音响;甚至在海外国家提供蚂蚁金服的智能语音识别服务。在内容安全领域,保障非文字内容的安全。甚至在疫情期间,阿里巴巴智能疫情机器人成功落地全国27个省份,累计为39座城市拨打超3000万的防控摸排电话,完成100万人次的在线咨询服务,有效缓解了防控一线人力不足的问题。
image.png

2.零时差上云

如果大家对语音技术感兴趣,在阿里云官网就可找到想应的技术及解决方案。如语音AI原子能力中包括录音文件识别、实时语音识别、一句话识别、语音识别自学习、KAN-TTS语音合成、声优工厂等。在语音AI的技术解决方案中提供了云小蜜,智能对话分析,内容安全及智能外呼等案例。

4.语音识别自学习服务

任何人都可以通过语音技术解决自身行业中的问题。但目前语音AI技术存在一个明显的行业间的Gap,即很难有一种技术在不同领域中都达到很高的accuracy,如金融行业和电商行业。需要根据具体的领域及行业特性,制定具体的语音识别模型。与传统定制模型不同,阿里语音识别自学习体系是通过在云上提供具体的语音技术和工具,让实践者自主的进行学习,用户只需拿出一些行业数据,阿里语音识别自学习体系为其提供数据标注,模型训练,模型部署等服务。
image.png
语音识别自学习服务案例: 以授人以渔的方式,加速语音技术在不同行业中创造更多的价值。阿里除了提供开箱即用的功能,还给合作伙伴提供了多种工程化的服务。如中国移动10086使用阿里语音识别自学习功能助力语音导航,省去了大量的运营成本,并解决了大量的用户问题。
image.png
基于KAN-TTS的语音合成定制功能,可以解决传统的人生定制方案所带有的机械感语音问题,是的录音内容更拟人化,大大缩减数据的收集时间,平均以月为单位定制语音合成模型。image.png
目前,有很多行业都在使用阿里的智能语音服务。阿里语音AI为浙江电力提供虚拟调度员,将语义理解、知识图谱、智能决策等功能进行全面结合,减少了80%的人工重复工作,帮助客户提升工作效率,减少了上亿元的生产运维支出。image.png
阿里语音AI为智慧地铁提供语音售票及问询机。通过在智慧交通领域与高德、支付宝深度融合,用户只需语音搜索目的地,就可以为其提供线路规划,无现金支付等功能。并且在嘈杂的环境中依然可以进行语音的交互,提供周边车站,设施等信息的自主问询功能。智能语音售票及问询机已在全国多个城市落地,如北京、上海、杭州等。
image.png
image.png
AIoT也是目前大家广泛关注的领域,如下图中的右侧是一个小的语音模组,左侧是开关面板。通过语音模组的嵌入可以瞬间与云进行打通,同时具备语音交互的能力。image.png

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
目录
相关文章
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能技术的探讨
人工智能的概念,人工智能的发展,人工智能的各种学派,人工智能的应用领域
341 4
|
7月前
|
人工智能 语音技术
推动人工智能技术和产业变革,啥是核心驱动力?生成式人工智能认证(GAI认证)揭秘答案
人工智能(AI)正以前所未有的速度重塑世界,其发展离不开领军人才与创新生态的支持。文章探讨了AI领军人才的核心特质及培养路径,强调构建产学研深度融合的创新生态,并通过教育变革与GAI认证提升全民AI素养,为技术与产业变革提供持续动力。这不仅是推动社会高质量发展的关键,也为个人与企业带来了更多机遇。
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
生成式人工智能的价值回归:重塑技术、社会与个体的发展轨迹
生成式人工智能(Generative AI)正以前所未有的速度重塑社会面貌。它从单一决策工具转变为创造性生产力引擎,推动知识生产、艺术创作与科学研究的发展。同时,其广泛应用引发社会生产力和生产关系的深刻变革,带来就业结构变化与社会公平挑战。此外,生成式AI还面临伦理法律问题,如透明性、责任归属及知识产权等。培生公司推出的生成式AI认证项目,旨在培养专业人才,促进技术与人文融合,助力技术可持续发展。总体而言,生成式AI正从工具属性向赋能属性升华,成为推动社会进步的新引擎。
|
7月前
|
人工智能 自然语言处理 API
MCP与A2A协议比较:人工智能系统互联与协作的技术基础架构
本文深入解析了人工智能领域的两项关键基础设施协议:模型上下文协议(MCP)与代理对代理协议(A2A)。MCP由Anthropic开发,专注于标准化AI模型与外部工具和数据源的连接,降低系统集成复杂度;A2A由Google发布,旨在实现不同AI代理间的跨平台协作。两者虽有相似之处,但在设计目标与应用场景上互为补充。文章通过具体示例分析了两种协议的技术差异及适用场景,并探讨了其在企业工作流自动化、医疗信息系统和软件工程中的应用。最后,文章强调了整合MCP与A2A构建协同AI系统架构的重要性,为未来AI技术生态系统的演进提供了方向。
1101 62
|
机器学习/深度学习 人工智能 自然语言处理
人工智能与机器学习:探索未来的技术边界
【10月更文挑战第18天】 在这篇文章中,我们将深入探讨人工智能(AI)和机器学习(ML)的基础知识、应用领域以及未来趋势。通过对比分析,我们将揭示这些技术如何改变我们的生活和工作方式,并预测它们在未来可能带来的影响。文章旨在为读者提供一个全面而深入的理解,帮助他们更好地把握这一领域的发展趋势。
|
8月前
|
人工智能 算法 搜索推荐
人工智能技术对未来就业的影响
人工智能大模型技术正在重塑全球就业市场,但其核心是"增强"而非"取代"人类工作。虽然AI在数据处理、模式识别等标准化任务上表现出色,但在创造力、情感交互和复杂决策等人类专属领域仍存在明显局限。各行业呈现差异化转型:IT领域人机协同编程成为常态,金融业基础分析岗位减少但复合型人才需求激增,医疗行业AI辅助诊断普及但治疗决策仍依赖医生,制造业工人转向技术管理,创意产业中人类聚焦高端设计。未来就业市场将形成人机协作新生态,要求个人培养创造力、情商等AI难以替代的核心能力,企业重构工作流程。AI时代将推动人类向更高价值的认知活动跃升,实现人机优势互补的协同发展。
1013 2
|
12月前
|
机器学习/深度学习 人工智能 自然语言处理
深入理解人工智能中的深度学习技术及其最新进展
深入理解人工智能中的深度学习技术及其最新进展
1319 33
|
11月前
|
机器学习/深度学习 人工智能 算法
人工智能平台年度技术趋势
阿里云智能集团研究员林伟在年度技术趋势演讲中,分享了AI平台的五大方面进展。首先,他介绍了大规模语言模型(LLM)训练中的挑战与解决方案,包括高效故障诊断和快速恢复机制。其次,探讨了AI应用和服务的普及化,强调通过优化调度降低成本,使AI真正惠及大众。第三,提出了GreenAI理念,旨在提高AI工程效率,减少能源消耗。第四,讨论了企业级能力,确保数据和模型的安全性,并推出硬件到软件的全面安全方案。最后,介绍了整合多项核心技术的Pai Prime框架,展示了阿里云在自主可控AI核心框架下的整体布局和发展方向。
|
12月前
|
机器学习/深度学习 人工智能 自然语言处理
深入理解人工智能中的深度学习技术及其最新进展
深入理解人工智能中的深度学习技术及其最新进展
531 14
|
机器学习/深度学习 人工智能 自然语言处理
人工智能与深度学习:探索未来技术的无限可能
在21世纪,人工智能(AI)和深度学习已经成为推动科技进步的重要力量。本文将深入探讨这两种技术的基本概念、发展历程以及它们如何共同塑造未来的科技景观。我们将分析人工智能的最新趋势,包括自然语言处理、计算机视觉和强化学习,并讨论这些技术在现实世界中的应用。此外,我们还将探讨深度学习的工作原理,包括神经网络、卷积神经网络(CNN)和循环神经网络(RNN),并分析这些模型如何帮助解决复杂的问题。通过本文,读者将对人工智能和深度学习有更深入的了解,并能够预见这些技术将如何继续影响我们的世界。
295 7

热门文章

最新文章