智能互联网时代来临,最先爆发的AI应用会是语音吗?

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介:

移动互联网之后智能互联网时代已然来临。不过,究竟什么是人工智能?AlphaGo战胜人类棋手除了可以作为谈资之外其实与大多数人没关系,用人工智能技术调度外卖配送员我们普通人也感受不到其威力。在我看来,人工智能技术最典型且最先普及的应该是语音——如果说人工智能是互联网上的皇冠,那么,语音技术就是这颗皇冠上最璀璨的那颗明珠。

种种迹象表明,智能语音正在改变我们的生活或者生产方式:

在上海一家肯德基餐厅内,度秘可接收顾客的语音命令帮客人点餐;

AmazonEcho和GoogleHome为代表的智能音箱,正在成为家庭的新入口;

阿里云栖大会和天猫双11晚会上,演讲嘉宾的话被实时转化为文字,准确率近100%;

锤子M1L发布时,讯飞语音输入法成为这场发布会的最大亮点;

手机天猫的商品评论功能已经支持语音输入,大幅提升了用户的评论意愿;

……

由于更加自然、快速和简单,语音正在逐步取代“打字”成为主流交互方式,各行各业都在思考如何利用语音技术,手机电视等硬件厂商加入语音将之当做卖点,O2O服务平台加入语音搜索便于用户下单,电商平台加入语音评论功能降低互动门槛,售后服务加入语音降低客服压力,企业借助于语音工具记录会议内容……

语音技术大规模爆发

语音进入大众视野已有许多年历史,事实上,Siri早在2011年就已经发布,当时国内也有不少跟随者,为什么5年之后的今天语音才进入爆发期呢?最关键的原因在于:

1、技术进入成熟可用阶段。当识别率只有90%的时候,语音就会被吐槽为玩具,然而,随着深度学习技术被引入语音之中,语音技术就实现了从90%到99%的跨越。百度有基于百度大脑深度学习技术的Deep-Speed技术,讯飞有“讯飞超脑”,搜狗也与清华大学联合建立人工智能实验室,人工智能驱动语音技术走向成熟,变得可用,是语音技术今天爆发的第一个背景。

2、4G网络普及速度超预期。不论是Siri、度秘还是语音输入法,要能准确、快速识别出语音的前提是终端要接入网络,并且要高速网络,4G网络在最近两三年的普及速度超过了所有人的预期,5G商用也越来越近了,高速的网络环境给语音提供了便利的基础设施。

3、大数据和云计算普及应用。人工智能算法生效的前提是对海量数据进行机器学习,同时要通过云端大规模集群进行并发式计算。语音技术需要对大量的语料进行计算,大数据和云计算在这几年成为互联网基础设施,成为语音技术爆发的又一个前提。

4、语音应用场景大幅增加。这几年,后移动互联网时代迎来了几波潮流:O2O、智能硬件(智能汽车、智能家居、智能可穿戴等等)还有互联网+,这些场景给语音提供了大量的应用场景。

语音爆发在即,开发者并不具备研发语音底层技术的能力,但可以将巨头开放的语音技术与自身业务紧密结合,成为语音技术的应用者。市面上有不少语音开放平台,有的收费、有的免费,现在最普及的语音开放平台,来自于百度。百度语音平台在2013年11月正式开放,在当时我的看法是“百度语音开放可以成为推动这一市场蓬勃兴起的催化剂”,现在看来这是对的。

百度语音开放平台如何崛起?

11月22日,在百度语音开放平台三周年大会上,百度首席科学家吴恩达介绍,百度语音开放之后,2013年每天的在线语音识别请求量是500万,今天这个数据变为1.4亿请求量;在线合成从2014年的1.2千万到现在超过2亿;开发者数量从2014年1万增加到今天超过14万开发者,百度的语音开发者生态浮出水面。

鉴于11月23日即今天下午是科大讯飞2016年度发布会,百度语音在11月22日前高调召开发布会,截胡之意十分明显。百度语音开放平台的玩法,让我想起百度地图与高德之争:百度免费让高德不得不跟进,最终实现了互联网化。科大讯飞2009年成立,百度语音团队在2012年才成立,作为后来者,百度语音凭什么能做成呢?

第一点,也是非常重要的一点,百度语音率先使用了深度学习技术,进而在语音技术上取得突破。这是吴恩达加盟百度之后着重做的第一件事情,基于深度学习的DeepSpeech2语音识别系统准确率达到了97%,这个成果被评为MIT评为2016年十大技术突破,同时,在噪音环境下的表现很好。在百度大脑被公布之后,讯飞才跟进成立“讯飞超脑”,深度学习技术是百度语音能够做成的关键。现在,百度正在语音情感合成、远场语音交互、语音唤醒技术等领域发力,做深做细,强化技术壁垒。

第二点,百度在语义理解技术上优势明显。语义理解不只是要求机器听得到,还要听得明白,甚至可以基于上下文对话。这需要自然语言处理技术的配合,去理解识别到的语音中的语义。百度是搜索引擎起家,在自然语言处理尤其是中文处理上优势明显,再结合任何智能技术,在语音交互上有度秘表现比Siri、GoogleAllo更好,甚至支持多轮交互,在语音应用上有自然语言翻译,这些都体现出百度在语义理解上的优势,百度语音开放平台也支持50多个垂直领域的语义理解,支持人机多轮对话。

第三点,则是非常独特的一点,百度不只是有语音开放技术,开发者往往会需要使用多种技术能力,一个App不能只有语音,可能还需要LBS位置能力,百度地图是最大的开发者平台;还有在人工智能上,百度提供语音合成技术、图像识别技术、自然语言处理技术、用户画像技术以及机器学习技术的开放,这些可能也是开发者所看中的,这也是百度相对于只提供语音技术能力的平台的优势。

第四点,百度所开放的不只是技术,还有用户、数据和计算资源。许多开放平台开放的是API,即技术能力,但开发者需要的不只是技术能力,互联网巨头都有自己的生态,它们可以吸引开发者的原因就在于用户、数据和计算资源,百度产品矩阵拥有数亿用户,其中不少用户有语音习惯,还有就是用户行为大数据以及云计算资源,这些都是开发者看重的。

语音大战新的主战场是什么?

不过,语音技术进入爆发期,还有许多应用空间,开发者有复杂多样的需求,百度语音开放平台将切下一块蛋糕,但不会吃掉所有的。接下来,语音技术还有许多重点领域要克服,除了抗噪、口音两大问题之外,语音接下来的关键竞争点在于:

1、语音唤醒技术。

我们通过“HeySiri”“OkGoogle”唤醒语音助手,这让语音助手随时待命,不过对移动设备来说有较高的功耗压力(GoogleHome和AmazonEcho音箱一直插电,不用考虑功耗问题),还有就是唤醒准确率存在问题,要么手机听不到,要么误判。还有就是唤醒的语句固定、不能区分用户身份,体验不够好。百度语音开放平台三周年时选择开放唤醒二期技术,功耗是友商的三分之一,唤醒准确率达95%,支持“茄子”启动拍照这样的自定义唤醒词,相信之后还会引入声纹识别技术区别身份。

2、远场语音交互。

现在语音交互技术对人与设备之间的距离有要求,要“对着手机说”,这其实是很傻的,我们在生活中与人对话,可不会距离这么近。在家里我们要控制电视机,还得对着遥控板说。远场语音交互技术解决的就是这个问题,它让机器可以听到几米外的人说的话,挑战也很大,有回音,有噪音,有衰减,百度已经自主研发了支持3-5米的远场语音技术,这意味着之后我们可以睡觉时让热水器启动,或者坐在沙发上直接对着电视发号施令了。

3、语音合成技术。

现在机器说话都很死板,我们很容易听出来一段话是人还是机器说的。接下来语音合成技术的关键是,让机器说话声音更像真人,不只是“音色”接近真人,而是更有情感,抑扬顿挫、饱含深情。百度语音开放平台基于大数据和深度学习建模方式,在情感合成上有较好的表现,语音开放平台增加的一个新能力就是语音合成技术。

4、长语音识别。

输入一大段话的识别,过去对机器来说很有难度,涉及到断句等诸多方面,现在输入法,包括大会上演讲者的声音识别都有不错的表现,这表明长语音识别技术正趋于成熟。不过,要实现同声传译、用语音发邮件、写文章,甚至进行会议纪要,短期内还是很困难的,李彦宏、王小川等大佬们的说法也是“未来会取代同声传译”。当然,随着长语音识别技术的成熟,接下来语音还有更多应用场景,比如智能客服、内容纪要等等,取代同声传译不会这么快,但是最终一定会。

5、语义理解技术。

语义理解能力进一步提升,中文博大精深,很多话文字一样,不同场景表达意思不一样,语音技术要跟场景结合去理解语义,还要结合上下文。甚至要跟别的智能技术结合去理解,比如用户可能会指着一个物体说“请问它的英文怎么说”,只有语音技术就解决不了这样的交互,还得有图像识别技术;再比如用户会问“我们这里的天气怎么样”,这需要LBS技术的配合。总之,基于场景、结合人工智能综合技术的语义理解,可能会是语音技术接下来攻克的重点。

每个行业都在利用人工智能技术,而人工智能里面最先普及的,必然会是语音技术。随着IoT时代到来,越来越多的联网设备会遍布在我们周围,手机、电视、电灯、汽车…都会具备语音交互能力,随时待命,聆听我们的声音并做出响应。因为语音技术的成熟,我们与这个世界对话将越来越多,我们的双手将被解放,我们的世界将更加美好,未来已来。



本文出处:畅享网
本文来自云栖社区合作伙伴畅享网,了解相关信息可以关注vsharing.com网站。

目录
相关文章
|
4天前
|
人工智能 自然语言处理 API
Mathtutor on Groq:AI 数学辅导工具,实时计算并展示解题过程,支持通过语音提出数学问题
Mathtutor on Groq 是一款基于 Groq 架构的 AI 数学辅导工具,支持语音输入数学问题,实时计算并渲染解题过程,适用于代数、微积分等领域的学习和教学辅助。
28 5
Mathtutor on Groq:AI 数学辅导工具,实时计算并展示解题过程,支持通过语音提出数学问题
|
5天前
|
机器学习/深度学习 人工智能 自动驾驶
企业内训|AI大模型在汽车行业的前沿应用研修-某汽车集团
本课程是TsingtaoAI为某汽车集团高级项目经理设计研发,课程全面系统地解析AI的发展历程、技术基础及其在汽车行业的深度应用。通过深入浅出的理论讲解、丰富的行业案例分析以及实战项目训练,学员将全面掌握机器学习、深度学习、NLP与CV等核心技术,了解自动驾驶、智能制造、车联网与智能营销等关键应用场景,洞悉AI技术对企业战略布局的深远影响。
131 97
|
10天前
|
机器学习/深度学习 人工智能 物联网
AI赋能大学计划·大模型技术与应用实战学生训练营——湖南大学站圆满结营
12月14日,由中国软件行业校园招聘与实习公共服务平台携手魔搭社区共同举办的AI赋能大学计划·大模型技术与产业趋势高校行AIGC项目实战营·湖南大学站圆满结营。
AI赋能大学计划·大模型技术与应用实战学生训练营——湖南大学站圆满结营
|
2天前
|
人工智能 前端开发 Unix
使用tree命令把自己的代码归类文件目录的方法-优雅草央千澈以优雅草AI智能功能为例给大家展示tree命令实际用法
使用tree命令把自己的代码归类文件目录的方法-优雅草央千澈以优雅草AI智能功能为例给大家展示tree命令实际用法
使用tree命令把自己的代码归类文件目录的方法-优雅草央千澈以优雅草AI智能功能为例给大家展示tree命令实际用法
|
2天前
|
机器学习/深度学习 人工智能 自然语言处理
CogAgent-9B:智谱 AI 开源 GLM-PC 的基座模型,专注于预测和执行 GUI 操作,可应用于自动化交互任务
CogAgent-9B 是智谱AI基于 GLM-4V-9B 训练的专用Agent任务模型,支持高分辨率图像处理和双语交互,能够预测并执行GUI操作,广泛应用于自动化任务。
31 12
CogAgent-9B:智谱 AI 开源 GLM-PC 的基座模型,专注于预测和执行 GUI 操作,可应用于自动化交互任务
|
2天前
|
人工智能 运维 Kubernetes
阿里云容器服务AI助手2.0 - 新一代容器智能运维能力
2024年11月,阿里云容器服务团队进一步深度融合现有运维可观测体系,在场景上覆盖了K8s用户的全生命周期,正式推出升级版AI助手2.0,旨在更好地为用户使用和运维K8S保驾护航。
|
19小时前
|
机器学习/深度学习 人工智能 资源调度
基于AI的运维资源调度:效率与智能的双重提升
基于AI的运维资源调度:效率与智能的双重提升
28 16
基于AI的运维资源调度:效率与智能的双重提升
|
7天前
|
存储 人工智能 数据管理
|
4天前
|
机器学习/深度学习 数据采集 人工智能
AI在用户行为分析中的应用:实现精准洞察与决策优化
AI在用户行为分析中的应用:实现精准洞察与决策优化
42 15
|
4天前
|
机器学习/深度学习 人工智能 自然语言处理
AI在内容创作中的创新:开启智能创意的新时代
AI在内容创作中的创新:开启智能创意的新时代
44 14