决定智能语音助手成败的,也许并只不是技术!

简介: 决定智能语音助手成败的,也许并只不是技术!

image.png

人的懒惰是与生俱来的,饭来张口衣来伸手的生活是很多人的向往,要不然古往今来的显贵身边也不会有那么多的侍者。但遗憾的是由于社会资源的制约,并不是每个人都能享受“众侍围绕”的待遇。而随着智能语音助手的出现,人的懒惰性有望得到进一步的满足。2014年随着亚马逊推出ECHO (亚马逊智能音箱),一场智能语音交互的竞赛被彻底点燃。值得注意的是,被称为科技行业风向标的苹果也在不久之前发布HomePod智能音箱,如果再算上此前的谷歌Home、微软Invoke,智能语音交互领域可谓是巨头云集。如今,这一领域也迎来了“中国军团”的“参战”,中国科技巨头阿里巴巴于7月5日在北京发布其首款智能语音终端设备——天猫精灵X1,并内置内置其推出的第一代人机交流系统——AliGenie。


巨头们的“战争”源于入口的抢夺


2016年,阿里首次使用了“阿里巴巴无处不在”(Alibaba Everywhere)这一用语,标志着其开始了全新阶段的扩张计划。对于“无处不在”的诠释,不同的媒体有着不同的观点,但从更高的维度来看,其实“无处不在”的提法更像是阿里发起入口抢夺战的冲锋号角。本次天猫精灵X1的发布,阿里瞄准的正是对其商业帝国而言最为重要的家庭级入口。天猫精灵X1并非简单的智能音箱,而是名副其实的智能语音助手。它除了具备语音控制音乐和音频内容播放等功能外,还通过AliGenie接入了丰富的生活服务。目前已经达成的合作伙伴包括美泰、KEEP、西溪天堂综合体、优酷、高德地图、淘票票、支付宝、虾米音乐、天猫超市、菜鸟裹裹、喜马拉雅FM、淘宝网、阿里智能联盟、阿里数娱、天猫魔盒、绘儿乐、吴晓波频道、飞猪、盒马鲜生等。根据阿里人工智能实验室负责人浅雪介绍,天猫精灵以家庭为单位目前最多可以识别6个人的身份,通过个性化推荐,声纹识别在辨别出使用者的身份后还能够实现“千人千面”,根据每个人的喜好设定和推送不同的内容。通俗的讲,天猫精灵其实就是阿里开设在用户家庭中的“服务站”。


反过来看谷歌、微软、亚马逊、苹果在智能音箱方面的布局,其实看重的就是“语音交互”功能有望继触摸成为最高频的人机交互方式。巨头们布局的逻辑就在于,希望能以语音为突破口,把“音箱”作为中枢,通过智能音箱和语音技术,以此来搭建智能家居生态体系。 从国际市场上的智能音箱产品上看,语音交互在智能音箱领域早已被运用多时。与做一款单纯的智能硬件音箱相比,获得庞大的用户数据和掌握软件服务入口,以及建设属于自己的核心生态,才是科技巨头真正看重的。所以,尽管就智能音箱这个产品形态而言,它到底能否成为现代家庭的标配依然还存在很大的疑问,但更看重趋势的巨头们似乎已经迫不及待了。


ECHO的成功并非技术决定


公开数据显示,目前亚马逊的ECHO销量已近1000万台,这意味着以家庭为单位的ECHO已经实现覆盖人群近3000万到4000万美国人口,接近美国总人口的十分之一。早期仅在小众圈子流行的ECHO开始进入以家庭为单位的大众市场,智能语音交互的价值逐渐显现。而值得注意的是,亚马逊并非是智能语音交互的开拓者,在它之前,Google 很早就推出了 Google Home,另外,Facebook去年已经宣布收购沉浸式音响公司TwoBigEar;微软在Build大会上也推出了搭载微软人工智能语音助手 Cortana 的智能音箱 Invoke;苹果也在WWDC大会推出HomePod。比较而言,亚马逊并不是最早推出智能语音交互助手的,也不是在人工智能领域的技术实力最强的,甚至在硬件产品的研发上也远远落后于苹果和谷歌,但ECHO却成功了。这意味着在这场智能语音交互助手的竞争之中,技术已非绝对的决定因素。


阿里看到了ECHO成功的根本,也看到了自己的机会所在。对于智能语音交互这个全新的市场而言,技术实力和硬件研发制造能力的高低并不能起到绝对的决定作用,反而是后端商业和服务生态的整合能力决定智能语音交互助手本身能够走多远。通过天猫精灵X1发布会现场的演示来看,阿里对这个智能语音交互助手的重视非同寻常,几乎对其开放了整个生态。从优酷、高德地图、淘票票、虾米音乐、喜马拉雅FM到天猫超市、菜鸟裹裹、淘宝网、阿里智能联盟、阿里数娱、天猫魔盒、飞猪、盒马鲜生等业务板块和合作伙伴的数据链条都实现了打通,借助天猫精灵X1,用户可以轻松实现网上购物下单、话费充值、查询快递、控制智能产品等一系列服务。据悉,未来天猫精灵的服务领域还会进一步扩大,而这一切都依赖于阿里的庞大的生态链条。


开放核心技术,阿里给行业展示全新未来


据介绍,天猫精灵X1内置了第一代人机交流系统AliGenie,由阿里巴巴的科学家团队研发, 应用了积累多年的自然语言理解和处理技术。如果依照常规思维,AliGenie当算阿里在智能语音交互领域最核心的技术,但阿里人工智能实验室却将其开放,发布面向开发者和硬件厂商的AliGenie开发者平台。 这使得开发者既可以创建技能,为更多的语音用户提供服务,也可以将自己的设备接入云端服务,获取语音交互能力。除了技术的开放外,生态的开放也会是平台开放的特色和重点。开发者可以为天猫精灵用户开发多种“技能”服务。目前,天猫超市、菜鸟、KEEP等已推出基于天猫精灵X1的语音应用,用户只需动动口就可以完成话费充值、购买商品、健身语音提示等服务,很快还将上线打车、叫外卖、叫保洁等服务。 另外,AliGenie开发者平台还为硬件制造企业准备了单麦克风到多麦克风阵列的参考设计方案,并提供包括唤醒词定制,声学结构,核心电路设计和芯片方案在内的相关套件的参考设计,以及云端服务和应用管理所必要的全套工具和用户APP SDK组件。接入的硬件设备能够快速具备人机语音交互能力,并共享应用商店的所有应用技能。

image.png

有人曾断言:对于一个语音助手,如果最大的使用场景是把它当做百科全书,那么百度最有可能胜出;如果是希望当做一个音箱来使用,放歌放音频内容,那么腾讯最有可能胜出;但如果你希望它真的能够帮助你完成一些工作,为你提供商业服务,那么阿里的胜算最大。目前来看,在“智能语音助手”这个品类,用户关注的恰恰是后者,即它所带来的服务以及未来生活可能产生的颠覆。而阿里打破常规的开放核心技术之举,将智能语音交互的门槛进一步降低,并依靠自己全生态链条的整合能力,向行业展示出了智能语音交互助手全新且缤纷多彩的未来。

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
9天前
|
机器学习/深度学习 算法 人机交互
智能语音识别技术的最新进展与未来趋势####
【10月更文挑战第21天】 在当今这个信息爆炸的时代,人机交互方式正经历着前所未有的变革。本文深入探讨了智能语音识别技术的前沿动态,从深度学习模型的创新应用到跨语言、跨领域的适应性增强,揭示了该领域如何不断突破技术壁垒,提升用户体验的真实案例与数据支撑。通过对比分析当前主流算法的性能差异,本文旨在为研究者和开发者提供一幅清晰的技术演进蓝图,同时展望了多模态融合、情感识别等新兴方向的广阔前景。 ####
50 7
|
20天前
|
机器学习/深度学习 存储 人工智能
智能语音识别技术的深度剖析与应用前景####
本文深入探讨了智能语音识别技术的技术原理、关键技术突破及广泛应用场景,通过具体实例展现了该技术如何深刻改变我们的日常生活和工作方式。文章还分析了当前面临的挑战与未来发展趋势,为读者提供了一幅全面而深入的智能语音识别技术图景。 ####
|
22天前
|
机器学习/深度学习 搜索推荐 语音技术
智能语音识别技术在智能家居中的应用与挑战####
本文深入探讨了智能语音识别技术的基本原理、关键技术环节,以及其在智能家居领域的广泛应用现状。通过分析当前面临的主要挑战,如环境噪音干扰、方言及口音识别难题等,文章进一步展望了未来发展趋势,包括技术融合创新、个性化服务定制及安全隐私保护的加强。本文旨在为读者提供一个关于智能语音识别技术在智能家居中应用的全面视角,同时激发对该领域未来发展方向的思考。 ####
64 6
|
21天前
|
机器学习/深度学习 人工智能 自然语言处理
智能语音识别技术在多语言环境中的应用与挑战####
随着全球化的不断推进,跨语言交流的需求日益增长,智能语音识别技术成为连接不同语言文化的桥梁。本文旨在探索该技术在多语言环境中的应用现状、面临的挑战及未来发展趋势,通过深入分析技术瓶颈与创新策略,为促进全球无障碍沟通提供新视角。 ####
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
智能语音识别技术的现状与未来发展趋势####
本文旨在探讨智能语音识别技术的发展历程、当前主要技术特点、面临的挑战以及未来的发展趋势。通过综述该领域的最新研究进展和应用实例,本文为读者提供了一个关于智能语音识别技术的全面概览,并展望了其在未来可能的发展方向。 ####
|
1月前
|
存储 自然语言处理 搜索推荐
智能语音识别技术在医疗健康领域的深度应用与前景####
本文深入探讨了智能语音识别技术在医疗健康领域的多维度应用,从电子病历的高效录入到远程诊疗的无缝对接,再到患者教育与健康管理的个性化服务,展现了该技术如何显著提升医疗服务效率与质量。通过分析典型应用场景、挑战及解决方案,本文揭示了智能语音识别技术在推动医疗行业智能化转型中的关键作用,并展望了其未来发展趋势与广阔前景。 ####
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
智能语音识别技术在多语言环境下的挑战与优化策略###
随着全球化的加速推进,智能语音识别技术作为人机交互的关键一环,其跨语言适应性成为了研究热点。本文深入探讨了智能语音识别技术在多语言环境下面临的挑战,包括口音差异、词汇多样性、语法结构复杂性等,并提出了相应的优化策略。通过对比分析不同算法和技术路线,本文旨在为提升智能语音识别系统的跨语言性能提供理论依据和实践指导。 ###
|
1月前
|
机器学习/深度学习 算法 语音技术
智能语音识别技术在医疗健康领域的应用与挑战####
本文深入探讨了智能语音识别技术(Intelligent Speech Recognition, ISR)在医疗健康领域的现状、应用实例及面临的主要挑战。通过分析ISR技术的基本原理,结合其在电子病历记录、远程医疗咨询、患者监护及健康管理等方面的实际应用案例,揭示了该技术如何提升医疗服务效率、改善医患沟通并促进个性化医疗的发展。同时,文章也指出了数据隐私保护、方言与口音识别难题、技术准确性及用户接受度等关键挑战,为未来研究和技术优化提供了方向。 ####
|
1月前
|
人工智能 算法 语音技术
智能语音识别技术:原理、应用与挑战####
本文深入浅出地探讨了智能语音识别技术的基本原理,从声学模型到语言模型的构建过程,揭示了其背后的复杂算法。同时,文章详细阐述了该技术在智能家居、客户服务、无障碍技术等领域的广泛应用,并指出了当前面临的主要挑战,包括噪声干扰、方言差异及数据隐私等问题,为读者提供了对这一前沿技术领域的全面了解。 ####
|
1月前
|
机器学习/深度学习 搜索推荐 人机交互
智能语音识别技术的现状与未来发展趋势####
【10月更文挑战第29天】 本文深入探讨了智能语音识别技术的发展历程、当前主要技术特点、面临的挑战及未来发展趋势。通过综述国内外最新研究成果,分析了深度学习在语音识别领域的应用现状,并展望了多模态融合、端到端建模等前沿技术的潜在影响。文章还讨论了隐私保护、数据安全等问题对技术发展的影响,以及跨语言、跨文化适应性的研究方向。 ####