【人机对话】阿里云人工智能ET化身CEO,对话蜻蜓FM猫局长

简介: 11月29日,阿里云人工智能ET化身阿里巴巴CEO,参加蜻蜓FM猫眼未来科技局栏目,对话猫局长。人机对话,妙趣横生。

59c6ce9fb832e245d648cee39ecdc5b2276130e0


猛戳链接,直击现场:未来科技局 | 独家连线阿里巴巴未来CEO


11月29日,阿里云人工智能ET化身阿里巴巴CEO,参加蜻蜓FM猫眼未来科技局栏目,对话猫局长。人机对话,妙趣横生。

3e1f25b2dac6c6c9da791895b908a8ee962e8b17

此外,12月1日,猫眼科技连线阿里云AI专家,关于阿里云人工智能ET背后的语音识别技术进行了一次深度访谈。

猫:先请我们的科学家自我介绍一下吧?

陈:大家好我是阿里云负责ET智能语音对外服务的陈一宁。

7088e3ea8974fe9bbb875010b802c899886d8cc5

猫:你好陈工。我们看到et能言善辩还可以模仿马云的声音。这个是怎么实现的呢?

陈:模仿马云的声音这个是我们的语音合成技术。我们的语音合成技术原理是说它会根据一些已有的录音库生成一个与人的声音类似的模拟声音。那这个马云的声音实际上是因为我们收集了一些马老师在大会上的讲话之类或者是一些演讲的材料根据这个我们做了一个音库。根据这个模型生成的一个对应的马老师的语音合成的声音。

猫:语音识别在ET的各项能力中处于一个什么样的地位我看它有很多种能力啊?

陈:我认为语音识别首先是一个我们叫做听觉或者听觉中枢的一个作用它实际上是在ET的这种人机交互的过程中是一个必不可少的很重要的作用。也是相对来说一个比较成熟和比较接近产品化的一种能力。它很多时候在我们需要跟ET交互或者ET需要理性的处理一些非结构化数据的时候,语音时识别都可以帮助我们能够进入到这些数据中,能够让我们的交互可以开始发声。人机交互嘛!所以需要人说一些事情让机器去理解它。语音识别是这些理解的第一步,先把它变成文字然后才能开始做进一步的理解和进一步的交互。

猫:从现在全球的情况来看语音识别的应用情况是怎么样的从专家的角度如何看这个事情?

陈:全球来看的话语音识别应用还是比较火热的吧现在有很多种应用领域,我们一个一个来说吧比如说从这个人机交互的角度来说其实现在有很多这种助手类的产品比如苹果的siri,比如微软的小娜比如亚马逊的echo等等这样的产品。实际上都是在做这种比如手机特别是IOT设备上的语音交互产品。他们都需要语音识别的技术。那么再往下一点比如在做车载系统,如果你想跟车载做一些交互基本上智能汽车对于语音识别技术都是不可或缺的部分。同时如果对于商用的系统对于这种全球的客服比如我们民航的这种退票和改签服务应用,还有比如说在医疗领域一些医生处方或者医疗记录中发挥作用。

猫:现在语音技术还有没有面临挑战的地方阿里云是如何应对这种挑战的

陈:语音识别这个方向上我们觉得现在遇到的挑战有几种吧一个是比如说想噪声的这种挑战那么现在碰到的情况就是在干净的情况下或者说噪声很小的情况下语音识别的效果还是不错的但是在这个噪声比较大的时候这个识别率就会相对有所下降。还包括说话有一定口音的情况下。标准普通话标准语音会好一些但是有口音的情况下识别率也会有下降然后还包括说话的年龄过小或者过老也会有一些影响会打一些折扣。那么阿里云我们认为在这里面最主要的都是数据的问题。包括我们刚才讲到说抗噪声的理由识别率低实际上都是因为我们没有足够的噪声语音在里面。那么我们阿里云会采用一些技术通过人工的方式记录或者采集的方式获得大量的这种含噪声的,含口音的等等的这些语料,通过我们大规模的大数据方式做一些计算把这些海量的数据结合在一起就能够做出很多在各种情况下应用会比较好的语音识别的效果。还有提到比如中英文混杂的效果这是一个很头疼的问题那么我们也会通过各种识别材料增加的方式来达到最终的满意度。

猫:给我们能不能讲几个科学家工程师们的小故事让大家都了解一下他们的付出。了解工程师们是如何努力的?

陈:试试看啊我讲一个前线落地的故事不是一个后台的故事落地的时候我们会碰到一个很正常的问题有时候我们在做语音识别相关的工作的时候有一个事情很重要就是录音质量要好。录音如果本身就有巨大的噪声或者是你根本就没录下来那么肯定这个效果就会不好吧那这个就会有问题我举个例子比如说之前我们在这个湖南卫视我是歌手》这个节目里头去预测这个歌王。我们现场要得到歌手演唱的这些数据那么这样的一些东西我们都需要把声音录下来都录下来以后发现我们跟电视台的设备做的一些连接我们的设备和电台的设备是不兼容的。插上来基本上就是烧设备。然后当时很紧急的要拔掉开始直播了就发现这个设备有问题。然后后来紧急的想了各种办法来解决。从湖南卫视借了他们的一些设备出来才把这个事儿最后解决的这种情况还有很多比如说在双11晚会的过程中。也会遇到这种设备插在一起还会遇到这种电流电源上的干扰这种声音录起来是完全没法听这样的情况都有很多这种需要现场的工程师去解决,他们有时候都是没日没夜加班连轴转,把公司当做自己的家,非常的辛苦。



相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
目录
打赏
0
0
0
0
4868
分享
相关文章
南京大学与阿里云联合启动人工智能人才培养合作计划,已将通义灵码引入软件学院课程体系
近日,南京大学与阿里云宣布启动人工智能人才培养合作计划,共同培养适应未来技术变革、具备跨学科思维的AI创新人才。
阿里云 AI 搜索开放平台新发布:增加 QwQ 模型
阿里云 AI 搜索开放平台 新增加 QwQ 模型,将为企业和开发者带来更强大的搜索解决方案。
67 11
浙江大学与阿里云宣布合作人工智能通识课,通义灵码系列课程率先落地
浙江大学与阿里云联合宣布共建人工智能通识课,将在“AI+行业”课程方面从产、学、研角度,共同围绕教育、法律、设计、金融、人文和艺术等多个重点学科方向,将真实产业案例深度融入浙江大学人工智能通识课程体系。
浙江大学与阿里云联合宣布共建人工智能通识课
浙江大学与阿里云联合共建人工智能通识课,涵盖教育、法律、设计等多学科方向,将产业案例融入课程体系。阿里云开放大模型认证课程资源,提供云服务器、AI算力等支持,并通过“云工开物”计划为学生提供计算资源。双方还将发起“智能体创新大赛”,推动技术创新与人才培养。浙大是国内首批开展全校人工智能通识课的顶尖高校之一,2024年起“人工智能基础”成为全校本科生必修课。
61 4
南京大学与阿里云签署校企合作协议,以“云工开物”支持人工智能人才培养与科研创新
3月28日,南京大学与阿里云签署全面校企合作协议,共同推动科教融汇与产教融合。双方将启动人工智能人才培养计划,基于阿里云技术优势和南大学科实力,设计通识课程与实践课程,支持“1+X+Y”课程体系建设。阿里云将为南大师生提供免费算力资源,助力教学科研,并通过产学研合作培养新工科拔尖创新人才,推动科技成果转化与高水平自立自强。
89 5
阿里云AI Stack,加速大模型创新应用
阿里云AI Stack作为面向企业级客户的轻量化、极致性价比、软硬一体AI解决方案,顺利通过了中国信通院《AI大模型一体机技术能力要求》测评。
120 1
让数据与AI贴得更近,阿里云瑶池数据库系列产品焕新升级
4月9日阿里云AI势能大会上,阿里云瑶池数据库发布重磅新品及一系列产品能力升级。「推理加速服务」Tair KVCache全新上线,实现KVCache动态分层存储,显著提高内存资源利用率,为大模型推理降本提速。
阿里云 AI 搜索产品荣获 Elastic Innovation Award 2024
在新加坡 ElasticON 2025 的 Elastic 合作伙伴峰会上,阿里云 AI 搜索产品荣获 Elastic Innovation Award 2024!
更低成本、更高效、更安全!阿里云与钉钉联合推出协同办公AI解决方案
阿里云与钉钉携手推出了全新的“钉钉·AI Stack一体机”,以“低成本、高安全、零门槛”为核心,为用户提供基于钉钉,从模型部署到全员落地的AI解决方案,开启智能化办公的“一键加速”。
130 1
人工智能(AI)时代,七成CEO职位安全受威胁?
随着AI的迅猛发展,74%的CEO担心未来两年内因未能取得AI商业回报而面临职位不保。Dataiku调查显示,94%的CEO认为AI能提供更出色的商业建议,但也忧虑技术生态锁定和定制化难题。AI治理和提升AI素养成为关键,GAI认证助力CEO应对挑战,确保企业在AI时代立于不败之地。

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等