滴滴李先刚:语音识别在复杂场景的性能将显著提升

简介: 过去九年,从学校到工业界,李先刚一直专注在语音和声学领域。他说,一方面企业越来越重视AI的应用,随着研究的深入,在复杂场景下的语音识别性能将显著提升。

文 / 李先刚


策划 / LiveVideoStack


LiveVideoStack:李先刚你好,非常荣幸代表LiveVideoStack采访你。能否向LiveVideoStack的读者介绍下自己,以及目前关注的领域。


李先刚:我目前任职于滴滴出行AI Labs首席算法工程师,负责滴滴语音相关的技术和应用,关注的领域包括语音相关前沿算法(包括语音识别、说话人识别和自然语言处理等)和他们的产业应用(尤其是在出行场景中的应用)。


LiveVideoStack:大家对滴滴的了解可能还限于“一家出行服务公司”,作为一名工程师,你看到的滴滴是什么样的?与国内外其他科技公司相比有什么不同?


李先刚:滴滴作为移动互联网巨头,一直以来都致力于“让出行更美好”。平台连接了大量的司机和乘客,在这个过程中,怎么样通过技术手段来为用户提供更好的服务,并赋能平台上的司机,提升其服务、运营效率和收入,一直以来都是滴滴技术团队在努力的方向。


从技术层面上来看,与大多数互联网公司不同,滴滴的业务也是一个线上线下结合的公司。滴滴出行业务线下场景的复杂性,以及线下数据的丰富性,给技术带来了非常大的挑战,也给AI技术落地带来了非常大的空间。例如,当司乘有纠纷投诉的时候,行程中录音会被用于责任判定的数据;而如何利用AI技术帮助客服人员提效,便是一个极富挑战性的课题。


LiveVideoStack:我注意到你在北大读博时就在研究语音识别和声学建模,在学校做研究与在企业中做研发和产品,最大的不同是什么?


李先刚:在学校做研究和在企业中做研发,不太的地方还是蛮多的。首先是在研发驱动力方面,学校的研究更多来自于推动技术边界,而企业的研发更多来自于基于技术手段解决企业所面临的业务问题。例如,在企业,项目立项时会需要论证项目的业务价值,或许是提升用户体验,或许是提升企业的运营效率。有了立项,才有对应的研发资源去验证。其次,在学校和企业中,推动研究工作时的优势也会有所不一样,企业往往会有明显的数据和服务器优势。一方面,一般情况下,在企业中,尤其是大量的AI算法的应用中,通过增加数据规模得到性能收益往往相对确定;另外一方面,在企业中也会更加关注基于海量数据的算法性能的体现。


LiveVideoStack:过去九年,你一直专注在语音识别和声学建模领域,有没有考虑过更换方向?或者更大胆的去创业呢?


李先刚:语音相关的技术方向一致以来都是我专注的主要方向。一方面,深度学习技术已经使得语音的各个技术方向的性能都得到了显著的提升,另外一方面,企业界也越来越重视语音相关的AI应用。从而,我也一直专注在语音相关的应用场景中的技术,例如:语音识别,说话人识别,语音合成,情绪识别,口语对话处理等。


语音这些年来也引来了其应用落地的黄金期,在方方面面都在产生其价值。以滴滴为例,语音技术就至少在三个方面起到了非常大的应用:语音智能客服,车载语音交互以及遇到纠纷投诉时基于行程中录音数据更好地判责,赋能业务管控。这些应用也对语音技术提出了越来越高的要求,这也是我过去几年一直在努力推动的方向。


LiveVideoStack:您可介绍下,AI技术对于语音识别、声学建模带来了哪些变化?最新的研究趋势是怎样的?


李先刚:AI技术使得语音识别等任务的基础性能都得到显著的提升。在企业中,在一些场景下,甚至会有这样的预期,只要能够构建起数据回流的正向循环,其系统的性能就会不断地提升。这也是深度学习的强大之处,只要有足够多的数据,企业的研发人员并不用担心深度学习模型最终学到的模型性能。


而从研究角度,语音声学建模中的AI技术过去几年也一直在不断突破着,包括最初在HMM结构下研究采用不同的神经网络结构,而后开始从HMM到CTC再到Attention,深度学习技术也给语音技术架了一座桥,拉进了语音任务和图像还有NLP等任务的距离,使得研究者们能够有机会更多地借鉴相关领域的研究突破。


LiveVideoStack:语音识别、声学建模还存在哪些瓶颈或难点待突破?


李先刚:目前,得益于深度学习的强大,当数据足够充分的情况下,很多语音识别任务的性能都能达到一个还比较不错的水准。但在一些特殊场景下,依然还需要突破。例如code-switch的场景,一个典型的例子,上海地区会发现这样的情况,一段话中,上海话,普通话,英语,随时切换。例如在复杂的会场场景,尤其是面对所谓类似的鸡尾酒会场景时。随着语音技术的迭代,研究者们也逐渐将研究精力越来越多地投入到了这些更复杂的场景中。


LiveVideoStack:我在工作中使用过国内一些主流的语音转文字服务,在环境音嘈杂或远场情况下,识别的效果就大打折扣。如何改进这一状况?


李先刚:这里所提到的语音转文字服务,其实也可以从两个方面来看。首先是从企业角度,流量和需求大的应用往往能够得到更多的企业资源来打磨更好的服务。由于语音识别性能是需要依托于特定场景来谈的。可以看到,例如语音输入法,语音搜索,智能音箱,这些设备的语音识别效果都已经很不错了。这些场景都带有大量的用户需求和用户价值,各大公司也很快积累了大量的针对性的语音训练数据。而其他场景,由于其训练数据的积累相对慢,其性能也相对差。


其次,从技术角度,如果需要做好一款针对记者的转文字服务,也得考虑下该服务需要面临的挑战,会涉及到相对口语化的说话风格,以及是否需要使用特殊硬件设备实现嘈杂或远场情况下的拾音,等等。


LiveVideoStack:能否展望未来几年语音识别、声学建模的发展成果,对于滴滴用户而言,会有哪些体验提升?


李先刚:随着研究者们的努力,可以相信,未来几年,语音识别在更多复杂场景下的语音识别性能也将取得显著的提升。滴滴的语音应用,可以作为出行场景与语音技术结合的典型案例。具体地,在司乘遇到纠纷投诉时,通过语音技术实现对司乘纠纷责任识别,更好地赋能业务管控;在客服场景,通过语音交互技术实现智能辅助以及客服质检的自动化;在车载智能交互场景,通过打造针对司机运营相关的车载语音助手提升体验。随着语音技术的性能提升,可以预期,平台运营效率的提升将使得平台体验显得更规范,客服效率的提升也会使得滴滴对司乘的服务更到位,车载语音助手则会能够真正逐渐成为司机们工作时的助手。


LiveVideoStack:在获取用户(语音)数据的同时,如何保护好用户的隐私,以及保证用户数据不被滥用,您看到了哪些技术手段或规则?


李先刚:用户数据的隐私问题一直以来都是一个需要重点关注的问题。据我所看到的,大公司针对用户的数据安全都是非常重视的,其实国家相关法律也都是有明确规定的。例如在滴滴,行程中录音需要乘客授权,首先如无行程纠纷,七天后会自动删除,其次也只有在有纠纷投诉并获得用户授权的情况下,相关工作人员才会调取,内部也有严密的流程和规范。


LiveVideoStack:分享最近看的一本书或一部电影吧。


李先刚:推荐一本书《原则》


————————————————

版权声明:本文为CSDN博主「LiveVideoStack_」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。

原文链接:https://blog.csdn.net/vn9PLgZvnPs1522s82g/article/details/96060378


「视频云技术」你最值得关注的音视频技术公众号,每周推送来自阿里云一线的实践技术文章,在这里与音视频领域一流工程师交流切磋。

阿里云视频云@凡科快图.png

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
5月前
|
机器学习/深度学习 自然语言处理 算法
基于深度学习的语音识别技术应用与发展
在当今数字化时代,语音识别技术已经成为人机交互领域的重要组成部分。本文将介绍基于深度学习的语音识别技术在智能助手、智能家居和医疗健康等领域的应用与发展,同时探讨该技术在未来的潜在应用和发展方向。
166 4
|
2月前
|
机器学习/深度学习 人工智能 语音技术
使用深度学习进行语音识别:技术探索与实践
【8月更文挑战第12天】深度学习技术的快速发展为语音识别领域带来了革命性的变化。通过不断优化模型架构和算法,我们可以期待更加准确、高效和智能的语音识别系统的出现。未来,随着技术的不断进步和应用场景的不断拓展,语音识别技术将在更多领域发挥重要作用,为人类带来更加便捷和智能的生活体验。
|
2月前
|
人工智能 算法 人机交互
FunAudioLLM技术深度测评:重塑语音交互的未来
在人工智能的浪潮中,语音技术作为人机交互的重要桥梁,正以前所未有的速度发展。近期,FunAudioLLM以其独特的魅力吸引了业界的广泛关注。本文将以SenseVoice大模型为例,深入探索FunAudioLLM在性能、功能及技术先进性方面的表现,并与国际知名语音大模型进行对比分析,同时邀请各位开发者共同参与,为开源项目贡献一份力量。
62 4
|
3月前
|
人工智能 API 语音技术
PHP对接百度语音识别技术
PHP对接百度语音识别技术
80 1
|
3月前
|
机器学习/深度学习 自然语言处理 大数据
语音识别和语音合成技术
语音识别和语音生成是人工智能的重要分支,旨在实现计算机对人类语音的理解和生成。随着深度学习技术的快速发展,语音识别和生成技术在近年来取得了显著进展,并在多个领域实现了广泛应用。本文将介绍语音识别和生成的基本原理、关键技术及其应用,并探讨其未来的发展趋势。
101 3
|
2月前
|
机器学习/深度学习 自然语言处理 算法
尖叫!FunAudioLLM 技术掀起狂潮,开启语音交互的惊天巨变之门!
【8月更文挑战第8天】随着科技的进步,语音交互已成为日常不可或缺的部分。FunAudioLLM凭借其先进的自然语言处理和深度学习技术,在语音理解和生成方面实现了突破。相较于传统技术,它提升了理解和响应速度。通过简单的Python代码示例,我们可以测试其对如天气查询等指令的快速准确反馈。FunAudioLLM不仅适用于日常交流,还在医疗、教育等领域展现出应用潜力。尽管存在多语言环境下的准确性挑战,其为语音交互领域带来的革新仍值得期待。随着技术的持续发展,FunAudioLLM将为更多领域带来便利和效率。
47 0
|
4月前
|
自然语言处理 搜索推荐 数据挖掘
*语音识别技术将深刻影响未来的教育模式
【6月更文挑战第24天】*语音识别技术将深刻影响未来的教育模式
76 10
|
4月前
|
机器学习/深度学习 人工智能 搜索推荐
语音识别技术的现状与未来展望
【6月更文挑战第15天】**语音识别技术现状与未来:** 随AI发展,语音识别精度与速度大幅提升,应用广泛,从手机助手到智能家居。深度学习驱动技术进步,跨语言及多模态交互成为新趋势。未来,精度、鲁棒性将增强,深度学习将进一步融合,个性化和情感化交互将提升用户体验。跨领域融合与生态共建将推动技术普及,为各行业带来更多智能解决方案。但同时也需关注技术伦理和社会影响。
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
利用深度学习提升语音识别准确率的技术探讨
传统的语音识别技术在面对复杂的语音场景时常常表现出准确率不高的问题。本文探讨了如何利用深度学习技术,特别是深度神经网络,来提升语音识别的精度。通过分析深度学习在语音处理中的应用以及优势,我们展示了如何结合最新的研究成果和算法来解决现有技术的局限性,进一步推动语音识别技术的发展。 【7月更文挑战第3天】
|
5月前
|
机器学习/深度学习 人工智能 算法
构建一个基于AI的语音识别系统:技术深度解析与实战指南
【5月更文挑战第28天】本文深入探讨了构建基于AI的语音识别系统,涵盖基本原理、关键技术及实战指南。关键步骤包括语音信号预处理、特征提取、声学模型、语言模型和解码器。深度学习在声学和语言模型中发挥关键作用,如RNN、LSTM和Transformer。实战部分涉及数据收集、预处理、模型训练、解码器实现及系统评估。通过本文,读者可了解构建语音识别系统的基本流程和技巧。

热门文章

最新文章

下一篇
无影云桌面