唇语识别真会是语言交互的终极战场?

简介: 在今年的乌镇世界互联网大会上,搜狗展出了一项黑科技——唇语识别,12月14号搜狗在北京又公开演示了这项技术。作为行业领先的唇语识别系统,搜狗在非特定开放口语测试中,通用识别的准确率在60%以上,而在车载、智能家居等垂直场景下,已达到90%的准确率。

a596bf4305d629ea06f32ba85eecb806.jpg

在今年的乌镇世界互联网大会上,搜狗展出了一项黑科技——唇语识别,12月14号搜狗在北京又公开演示了这项技术。作为行业领先的唇语识别系统,搜狗在非特定开放口语测试中,通用识别的准确率在60%以上,而在车载、智能家居等垂直场景下,已达到90%的准确率。


虽说搜狗是国内第一家公开演示这项技术的公司,但早在2017年3月,海云数据创始人兼CEO冯一村在亚洲大数据可视分析峰会上,就发布了重庆市公安科研所与海云数据共同研发的唇语识别技术,它的中文识别模型准确率已达到70%。


而谷歌DeepMind团队,在2016年利用BBC视频对他们的AI系统进行了5000个小时的训练,测试时唇语识别正确率达到了46.8%。


这并不是场独角戏,那唇语识别到底是何物?未来又有着怎样的想象空间?



唇语识别只是语言识别的进化


虽说唇语识别近期才进入公众视野,但唇语识别技术的发展可以追溯到上世纪80年代。


当时,语音识别技术迅速发展,出现了许多实用的语音识别系统,然而这些系统抗干扰能力不强,在有背景噪音与交叉谈话的情况下,它们的性能会大幅降低。而在自然应用环境中,噪音现象十分常见,研究者们为了解决上述缺陷,一方面采用降噪技术降低干扰,另一方面开始寻求其它解决方法。


那唇语识别技术是怎么发展来的呢?语音识别的研究者们突然发现,其实人类的语言识别系统是由两个感知过程构成的,声音虽然是人类语言认知过程中最重要的方式,但在日常交流中,我们还会用眼睛看着对方的口型、对方的表情等,来更加准确的理解对方所讲的内容。受此启发,研究者们开始研究唇语识别。因为唇语识别完全不会受到噪声干扰,在多人对话中也能有效进行区分,这就有望解决语音识别的缺陷。事实上也是,将唇语识别与语音识别结合起来能够大大提高系统的正确率和抗干扰能力,于是唇语识别便有了更多的发挥空间。



换汤没换药,近30年的发展,核心步骤还是三步


经过研究各类资料,智能相对论(微信id:aixdlun)发现,唇语识别技术从摄像头输入到理解输出,中间最重要的是这三个单元——视觉前段、视觉特征提取、以及唇动识别。

5c72d1df71e412a9558f0f7a26db2c79.jpg

(图为:唇语识别的步骤)


其中,视觉前段包括人脸检测与唇的检测和定位,早期检测方法比较笨拙,不允许人脸自由移动,有些还会手动添加特定标志来跟踪唇动。目前的检测方法主要是基于算法,先用人脸检测算法得到人脸然后有针对性的定位唇动;或者利用最佳闽值二值化算法,以唇的边缘是平滑的,和左右形状对称为条件,作为二值化闽值选定的约束条件,得到平滑而对称的唇图像。


视觉特征提取是对获取的唇图像进行处理得到对应特征,特征提取方法主要分为两大类:基于像素的方法和基于模型的方法。所谓基于像素的方法,就是利用包含嘴的灰度级图像或利用经过预处理后得到的特征向量的一类方法。这种方法的缺陷在于对二维或三维的缩放、旋转、平移、光照变化以及说话人的变化都很敏感,会造成提取过程中特征丢失的情况,不能得到完整的特征信息。


而搜狗所用的基于模型的方法就是,对唇的轮廓建立一个模型,将特征信息包含在这个模型之中,并对模型中特征信息的变化用一个小的参数来描述。这类方法的优点是重要特征被表示成二维参数,不会因光照、缩放、旋转、平移而改变,缺点是忽略了细微的三维信息,可能会对后面的识别过程造成影响。


目前唇动识别采用的技术大多是隐马尔可夫模型,该技术基本思想是,认为唇动信号在极短时间内是线性的,可以用线性参数模型来表示,然后将许多线性模型在时间上串接起来,组成一条马尔可夫链。马尔可夫链可以用来描述统计特征信息的变化,并且这种变化过程与人的唇动过程是相吻合的,所以隐马尔可夫模型能够识别唇动并与相应语句匹配转化成文字。



看似应用方向很多,最重要的还是辅助语音识别


唇语识别技术的应用方向有很多,比如手语和听力障碍患者的辅助教育、国防反恐方面的情报获取、个人的身份识别以及公共安全领域等都拥有巨大的应用潜力。但在目前来看最大的应用还是辅助语音识别,毕竟它自诞生之初就是为了解决语音识别的噪音问题而研发的,这也会使得语音交互更加完善。


说到这里就不得不提到智能音箱,其实除搜狗之外,很多大公司也在布局语音交互,国内有阿里巴巴、百度、科大讯飞,国外有苹果、谷歌、微软、亚马逊。在今年7月阿里巴巴就发布了一款智能音响天猫精灵,可以接受各种语音指令,搭载中文人机交流系统AliGenie,有望成为家庭智能小助手。在11月16日百度也推出了首款智能音响raven H,其采用19x19的点阵触摸屏,内置DuerOS 2.0语音交互系统,拥有语音和控制器两种交互方式。其余还有京东的叮咚智能音响,小米的小爱同学,喜马拉雅的小雅音响等智能音响产品。对于这些公司而言,似乎不出一个智能音响都不好意思说自己在人工智能领域混。


那智能音响到底与唇语识别有啥关系?大厂们纷纷推出智能音响的原因是看到了新型交互方式的大趋势,但是智能音响能够满足需求的场景较少,且智能音响还有两大顽疾——抗噪音能力与远场交互能力较低。


根据声学在线的测试,即便是市面上最主流的智能音响,在抗噪音能力与远场交互能力上的表现也不尽如人意,5米的中短距离上有很多失误。

7357fa12e07debf91d16849cf9c119d9.jpg

(图为:5m 距离智能音响唤醒失败次数统计)


而且,传统语音交互对输入音频要求高,在背景噪音大时很容易失效,若人与机器再隔得远一点,失效的情况就更加严重了。但唇语识别就可以解决这两个问题。



若要快速普及,还有两个问题待解


自出现唇语识别技术出现起,就有声音说唇语识别是语言交互的高阶战,甚至可能带来一场革命。不过,根据智能相对论(微信ID:aixdlun)的观察,目前来说,唇语识别还不能快速普及。这主要的问题在:


一、摄像头录入存在很大的限制,不能完全满足日常交互需求。在目前的唇语识别系统中,获得的嘴唇视觉特征信息都是正向的,这就意味着你与它交互时,必须时刻正对着它,第一视角被其牢牢占据,这在真实应用场景下难以达到。要能够应用更多的场景,应该使人在侧着身子说话时也能被检测识别,这要求在人脸识别、唇的检测与定位方面研究出更强的定位、跟踪算法,提高算法的普适性,使之适用于非特定姿势和位置的识别定位,并且唇动识别技术也要提高,使之能处理非正向的、较不完整的视觉特征信息。


二、识别的准确度也是一个关键的问题,在有关安全的场景下,准确度是不容有差的。但我们知道其实口型与拼音序列是一对的多关系,如 zhi、chi、shi对应的口型序列是一样的,单纯利用视觉特征难以区分,会造成信息识别错误,处理这个问题,传统的技术方法是文法型语言模型,它基于人工编制的语言学文法,这种语言模型一般用于分析特定领域内的语句,无法处理大规模的真实文本。目前很多识别系统是人工限定的框架,在某一场景中对可能会出现的语句进行了很多设置,这是搜狗唇语识别系统在垂直场景(如车载)中表现得很好的原因,这同样也是它还不能大规模应用到其他场景的原因,因为要对所有场景进行设定,几乎是不可能的。


不过,我们依然要满怀信心,随着人类社会的发展,真实信息越来越多,处理数据的手段也越来越丰富,基于语料库的统计语言模型发展迅速,借助于统计语言模型的概率参数,可以估算出自然语言中每个句子出现的可能性,并通过对语料库进行深层加工、统计和学习,获取自然语言中的语言知识,从而可以处理大规模真实文本,并能识别出语言中细微的差别。目前在通用识别场景的准确率只有60%到70%,虽然稍显不足,但可以预见,随着大数据与人工智能的发展,未来的识别准确率会达到更高。


这看起来,一个新的时代正向我们迎面走来。

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
传感器 机器学习/深度学习 存储
谷歌这一新技术,不需要摄像头就能读懂你所有的肢体语言
本文最初发布于 WIRED 博客,由 InfoQ 中文站翻译并分享。
335 0
谷歌这一新技术,不需要摄像头就能读懂你所有的肢体语言
|
2月前
|
图形学 机器学习/深度学习 人工智能
颠覆传统游戏开发,解锁未来娱乐新纪元:深度解析如何运用Unity引擎结合机器学习技术,打造具备自我进化能力的智能游戏角色,彻底改变你的游戏体验——从基础设置到高级应用全面指南
【8月更文挑战第31天】本文探讨了如何在Unity中利用机器学习增强游戏智能。作为领先的游戏开发引擎,Unity通过ML-Agents Toolkit等工具支持AI代理的强化学习训练,使游戏角色能自主学习完成任务。文章提供了一个迷宫游戏示例及其C#脚本,展示了环境观察、动作响应及奖励机制的设计,并介绍了如何设置训练流程。此外,还提到了Unity与其他机器学习框架(如TensorFlow和PyTorch)的集成,以实现更复杂的游戏玩法。通过这些技术,游戏的智能化程度得以显著提升,为玩家带来更丰富的体验。
54 1
|
3月前
|
人工智能 PyTorch TensorFlow
编程语言与工具:为AI开发选择合适的武器
【7月更文第16天】在当今人工智能(AI)迅速发展的时代,选择恰当的编程语言和框架就如同为征服未知领域的探险者配备精良装备。本文将聚焦于AI开发中的三大基石:Python语言、TensorFlow框架,以及PyTorch框架,为你的AI之旅提供有力的导航。
142 7
|
5月前
|
自然语言处理 搜索推荐
让玩家全程掌控游戏:自然语言指令驱动的游戏引擎到来了
【4月更文挑战第28天】 Instruction-Driven Game Engine (IDGE) 技术引领游戏产业革命,允许玩家使用自然语言指令创建和修改游戏规则。由香港大学研发的IDGE简化了游戏开发,降低门槛,使非专业人士也能设计游戏。尽管需精确规则描述与大量训练数据,但IDGE潜力巨大,可促进游戏创新与个性化体验。[查看论文: https://arxiv.org/abs/2404.00276]
68 2
|
传感器 XML 定位技术
《移动互联网技术》第九章 感知与多媒体: 了解质感设计的基本原则和设计方法
《移动互联网技术》第九章 感知与多媒体: 了解质感设计的基本原则和设计方法
93 0
|
存储 小程序 前端开发
论“斗图”文化兴起和分享一个表情包小程序代码
论“斗图”文化兴起和分享一个表情包小程序代码
197 0
|
机器学习/深度学习 自然语言处理 机器人
人机自然交互平台技术及应用 | 学习笔记
快速学习 人机自然交互平台技术及应用
283 0
人机自然交互平台技术及应用 | 学习笔记
|
数据可视化 流计算 智能硬件
前沿︱视觉语言:可穿戴设备通知系统的福音
前沿︱视觉语言:可穿戴设备通知系统的福音
前沿︱视觉语言:可穿戴设备通知系统的福音
|
存储 数据可视化 atlas
史上最完善人类新陈代谢谱系模型登上《科学》封面!支持3D交互
史上最完善人类新陈代谢谱系模型登上《科学》封面!支持3D交互
151 0
|
人工智能 达摩院 开发者
自然语言智能:为商业搭建语言桥梁
本文是阿里CIO学院技术攻疫(公益)大咖说第九场《摘取人工智能的明珠:达摩院语言技术研发》的精华整理。本场大咖说嘉宾为达摩院语言技术实验室负责人、ACM杰出科学家、阿里巴巴高级研究员司罗,他为大家做了题为《为商业搭建语言桥梁》的分享,主要介绍了当前自然语言研发的现状、趋势,达摩院在自然语言智能方面所
827 0