语音识别:市场前景可观,但核心技术仍需突破

简介:

在CES 2017之后,语音识别成为了众人的关注焦点,而在市场规模扩大的背后,语音识别还不能完全满足人类的需求。

随着人工智能产品在生活中的渗透率越来越高,其中技术的发展也成为了众人关心的重点所在。作为人机自然交互的基本途径之一,近期以来,语音识别的发展不可谓不快速。

当下,诸如科大讯飞、百度等多家企业声称,其研发的语音识别技术已经达到了97%的准确率。而在日前,谷歌研究员公开表示其语音识别的错误率(将一个词语从语音转录成为文字时的错误率)自2012年以来已经降低了30%以上……纵观过去的2016年,谷歌、苹果和微软等多家科技巨头都公布了自己在语音识别上的进展和突破,而在接下来的时间里,语音识别也将是2017年的发展重点之一。

市场前景可观,而语音识别仍需突破

新兴产业市场广阔,推动语音识别技术发展

在刚刚过去不久的CES 2017展会上,我们见到了许多人工智能产品,要是来一场评比大赛,自动驾驶和智能家居绝对是主角。不过,再往深究,语音识别技术才是此次展会人工智能部分的“亮点”。

市场前景可观,而语音识别仍需突破

智能家居

在智能家居,不管是智能家电还是机器人,语音识别技术都是必备的基本功能之一。据知名市场调研公司《Markets And Markets》发布的调查报告称,全球智能家居市场规模将在2022年达到1220亿美元,2016-2022年年均增长率预测为14%。而在机器人方面,研究机构IDC预测,至2020年,全球机器人与相关服务市场规模将由2016年的915亿美元增至1880亿美元。从这两点数据来看,可想而知未来智能家居的市场之大。

在控制方式上,除了部分智能家电之外,语音控制已经成为了市场的主流,而这就是语音识别市场的商机。未来,作为人机自然交互的前提之一,语音识别必然是智能家居的发展趋势,只有语音识别的准确率接近完美,人机的自然交互才能继续开展。在智能家居市场的推动下,语音识别技术必将成为重点发展对象。

市场前景可观,而语音识别仍需突破

智能汽车

在CES 2017展会上,各大传统汽车制造商都带来了自己在自动驾驶汽车的最新成果。与此同时,在展会上,除了展示成果,不少厂商也宣布了自己的一系列计划,其中就包括在汽车中加入虚拟助手平台,以促进人车交互,进一步提升用户体验,比如日产、宝马与Cortana的合作,还有福特与Alexa的联手。

根据美国市场研究机构勒克斯的研究报告显示,自动驾驶汽车将在2030年创造价值870亿美元的市场。此外,另有研究显示,2030年全球范围将售出约1.2亿辆自动驾驶汽车。从数据来看,自动驾驶汽车的市场十分具有看头。

自动驾驶市场的推动下,人车交互也成了自动驾驶玩家的一个关注点,是汽车智能化的一部分。此外,相对于自动驾驶辅助技术,语音识别等交互技术的实现则容易得多,目前也已有不少车型搭载了语音识别技术。在智能汽车中,语音识别已经成为了一项基础的服务,而随着智能化时代的来临,人们对语音识别的要求也会进一步提升。

市场前景可观,而语音识别仍需突破

未来市场可观,而语音识别仍需“做事”

在新兴产业市场需求的推动下,语音识别的市场也是十分具有看头的,有研究机构指出,预计到2020年,全球语音识别的市场规模将从2015年的61.9亿美元增长到200亿美元。然而,在市场规模壮大这一美好的预测面前,我们也不能忽视一些需要面对的问题,只有解决了它们,语音识别才能得到完善,给用户带来极致服务。

市场前景可观,而语音识别仍需突破

首先就是对象识别的准确性。现在,在应用上,我们看见语音识别多是在智能家居领域,包括智能家电和服务机器人。此时,我们就要考虑一个问题了,当多个家庭成员同时讲话时,智能家电和服务机器人该执行谁的命令呢?它们又如何能在众声音中找出自己主人的命令?这些都是当前语音识别所需要解决的问题,毕竟我们通常所说的语音识别不仅仅只是单纯的对语音内容进行识别。

在这个问题上,人们也找到了一个解决方案——声纹识别。一般来讲,声纹具有唯一性,对说话人身份的确认有着极大的帮助。借助于声纹识别,语音识别能够准确对说话人的位置和身份进行定位,从而准确识别语音内容,执行其中下达的指令。不过,鉴于数据的极大空缺等问题,声纹识别技术还需完善。

市场前景可观,而语音识别仍需突破

其次是降低周边环境的干扰。对于人类来讲,在嘈杂环境中听别人说话或是从众多声音中找出自己想听的内容还是一件较为简单的事,而与此相反,这件事在机器这里并没有那么容易。

为了降低周边环境对语音识别的干扰,亚马逊和谷歌都在智能音箱中使用了麦克风阵列技术,从而起到一定的“降噪”作用,增加语音识别的准确率。不过,到目前为止,环境的干扰依然没有得到更好的解决,仍然是语音识别前进道路中的一只“拦路虎”,尤其是在多段语音中准确找出指定说话人的情境中。

市场前景可观,而语音识别仍需突破

在一次采访中,人工智能和机器学习权威学者、百度首席科学家吴恩达表示,2017年是“对话式电脑”快速发展的一年。对话式电脑,诸如聊天机器人、人工智能虚拟助手之类,作为展开对话的第一步,语音识别也属于这快速发展的一部分。

智能家居智能汽车等多种产业以及聊天机器人、虚拟助手这些产品市场的推动下,语音识别的市场正在不断扩大,同时也是对它准确性的一个挑战。

2016年,在语音识别内容的准确率上,各科技企业和团队都有了相应的突破,而在接下来的一年里,如何降低周边环境的干扰以及如何提高对声音的识别准确率将是语音识别所要解决的问题。


原文发布时间: 2017-01-16 18:23
本文作者: 韩璐
本文来自云栖社区合作伙伴镁客网,了解相关信息可以关注镁客网。
相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
编解码 API 数据安全/隐私保护
FFmpeg中overlay滤镜用法-水印及画中画
overlay 技术又称视频叠加技术。overlay 视频技术使用非常广泛,常见的例子有,电视屏幕右上角显示的电视台台标,以及画中画功能。画中画是指在一个大的视频播放窗口中还存在一个小播放窗口,两个窗口不同的视频内容同时播放。
2753 0
FFmpeg中overlay滤镜用法-水印及画中画
|
10月前
|
API 数据安全/隐私保护 网络架构
API接口
API(应用程序编程接口)是软件间通信的标准方式,通过定义规则和协议,便于开发者构建和集成服务。它通常基于RESTful架构或GraphQL实现,使用HTTP方法进行数据交互。以RESTful API为例,它通过GET、POST、PUT、DELETE等方法执行数据操作。示例中使用Python的requests库调用OpenWeatherMap API获取天气信息,展示了GET请求的实现。实际应用中,API还需结合OAuth 2.0等认证机制保障安全性。
|
11月前
|
人工智能 安全 Java
掌握Java反射:在项目中高效应用反射机制
Java反射是一种强大功能,允许程序在运行时动态获取类信息、创建对象、调用方法和访问字段,提升程序灵活性。它在框架开发、动态代理、注解处理等场景中广泛应用,如Spring和Hibernate。但反射也存在性能开销、安全风险和代码复杂性,应谨慎使用。
239 0
|
人工智能 开发框架 小程序
工会成立100周年纪念,开发职工健身AI运动小程序、APP方案推荐
为庆祝中华全国总工会成立100周年,特推出基于AI技术的智能健身系统,以小程序和APP形式呈现,助力职工健康生活。方案包括:1) 小程序插件,支持多种运动识别,开箱即用;2) APP插件,提供更高精度的运动检测;3) 成熟的「AI乐运动」系统,支持赛事活动管理。这些方案满足不同需求,推动全民健身体验升级,彰显工会对职工健康的关怀。
|
机器学习/深度学习 计算机视觉 知识图谱
YOLOv11改进策略【注意力机制篇】| SENet V2 优化SE注意力机制,聚合通道和全局信息
YOLOv11改进策略【注意力机制篇】| SENet V2 优化SE注意力机制,聚合通道和全局信息
602 1
YOLOv11改进策略【注意力机制篇】| SENet V2 优化SE注意力机制,聚合通道和全局信息
|
人工智能 自然语言处理 前端开发
什么?!通义千问也可以在线开发应用了?!
阿里巴巴推出的通义千问,是一个超大规模语言模型,旨在高效处理信息和生成创意内容。它不仅能在创意文案、办公助理、学习助手等领域提供丰富交互体验,还支持定制化解决方案。近日,通义千问推出代码模式,基于Qwen2.5-Coder模型,用户即使不懂编程也能用自然语言生成应用,如个人简历、2048小游戏等。该模式通过预置模板和灵活的自定义选项,极大简化了应用开发过程,助力用户快速实现创意。
|
存储 人工智能 vr&ar
转载:【AI系统】CPU 基础
CPU,即中央处理器,是计算机的核心部件,负责执行指令和控制所有组件。本文从CPU的发展史入手,介绍了从ENIAC到现代CPU的演变,重点讲述了冯·诺依曼架构的形成及其对CPU设计的影响。文章还详细解析了CPU的基本构成,包括算术逻辑单元(ALU)、存储单元(MU)和控制单元(CU),以及它们如何协同工作完成指令的取指、解码、执行和写回过程。此外,文章探讨了CPU的局限性及并行处理架构的引入。
转载:【AI系统】CPU 基础
|
大数据 数据处理 数据中心
x86和x64架构的区别及应用
x86和x64架构的区别及应用
2043 1
|
SQL Serverless 数据库
HAVING和WHERE子句 有什么区别?
【8月更文挑战第2天】
744 17
HAVING和WHERE子句 有什么区别?
|
数据采集 自然语言处理 API
Python反爬案例——验证码的识别
Python反爬案例——验证码的识别
852 2