【深度】小度VS最强大脑声纹识别战成平局,吴恩达详解技术原理

简介:

2016年1月13日晚,百度人工智能代表“小度”与最强大脑选手孙亦廷在声纹识别上展开人机大战,最终双方战平。在总比分上,小度凭借着上周险胜王峰,继续保持领先优势。这场人机大战依然留有悬念,双方将在下周迎来终极决战。


本周比赛的项目是凭借既有声音片段识别发声者身份,也就是所谓的声纹识别(Speaker Recognition)。比赛的设置是,最强大脑“听音神童”孙亦廷和小度需要凭借3位目标对象残缺的声音资料,在性别相同、年龄相仿、声线极为相似的专业合唱团中将她们分别找出,找出多者获胜。


从现场的情况来看,这一任务难度颇高,人和机器都只正确地找出了一位目标对象,正确率只有33.33%。


2个模型,2万人数据,5千小时训练


1月13日的媒体见面会上,百度首席科学家吴恩达(Andrew Ng)介绍了百度在此次比赛中所使用的人工智能技术:包含两个模型,一个是DNN-ivector,另一个是基于端到端深度学习的说话人信息提取。


DNN-ivector是目前被广泛采用的声纹识别系统。其主要特点就是将之前提取的声学特征按照一定的发声单元对齐后投影到一个较低的线性空间中,然后进行说话人信息的挖掘。直观地说,就是在挖掘“不同的人在发同一个音时的区别是什么”。


百度提供的资料显示,他们首先会用大量的数据训练一个能够将声学特征很好的对应到某一发声单元的神经网络,如下图所示。这样,每一帧特征通过神经网络后,就会被分配到某一发声单元上去。然后,会对每一句话在所有的发声单元进行逐个统计,按照每个发声单元统计得到相应的信息。这样,对于每一句话就会得到一个高维的特征矢量。


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


在得到高维的特征矢量后,会采用一种称之为Total variability的建模方法对高维特征进行建模,


M=m+Tw


其中m是所有训练数据得到的均值超矢量,M则是每一句话的超矢量,T是奇通过大量数据训练得到的载荷空间矩阵,w则是降维后得到的ivector特征矢量,根据任务情况而言,一般取几百维。最后,对这个 ivector采用概率线性判别分析PLDA建模,从而挖掘出说话人的信息。


在实际中,百度训练了一个高精度的深度神经网络来进行发声单元的对齐,然后依托海量数据训练得到了载荷矩阵空间T,最后创造性地采用了自适应方法来进行调整T空间和PLDA空间,大大增强了模型在唱歌和说话跨方式以及短时上的声纹识别鲁棒性。


吴恩达介绍说,百度参加本轮次比赛的声纹识别模型一共包含了20000个人的声音数据,模型训练时间超过5000个小时。


第二个模型,基于端到端深度学习的说话人信息提取算法。这是一种纯粹的数据驱动的方式。通过海量数据样本以及非常深的卷积神经网络来让机器自动的去发掘声学特征中的说话人信息差异,从而提取出声学特征中的说话人信息表示。第一期的人脸识别也使用类似算法。


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


这一模型的训练,使用了数万个ID。


最终,小度的识别结果出自两套系统最后在得分域上进行的加权融合。


吴恩达:深度学习短期内还会更热


声纹识别中,可用于处理和存储声纹的技术非常多,包括频率估计 (Frequency Estimation),隐藏马尔科夫模型,高斯混合模型,模型匹配算法、神经网络、矩阵表征、矢量量化以及决策树等等。一些系统中还用到了一些降噪技术 。


吴恩达也表示,未来百度还将训练更大的模型,可能不止采纳两个模型的方案。


不过,在新智元问到深度学习是否还将主导人工智能时。吴恩达说,深度学习技术现在很火,而且还会变的越来越火。未来肯定会有新的技术出现,但是具体是什么,现在他也不能预测。


谈到2016年备受关注的对抗生成网络(GAN),吴恩达表示,这一技术有很大的潜力,但是目前主要还停留在研究阶段。


声纹识别技术应用


声纹技术在安防、金融和C端消费应用,比如手机上,都有着广泛的应用场景。目前,声纹识别技术可用但不限于以下几个领域:


  1. 金融领域反欺诈(用声纹识别确认用户信息,提高客服和系统反欺诈的能力)

  2. 客服呼叫中心,快速定位用户身份等;

  3. 智能硬件的声纹识别能力,让机器人知道自己在和谁对话以及声纹唤醒能力;

  4. 安全领域的声纹认证,类似于人脸闸机;

  5. 个性化语音识别和语音合成的辅助。


近年来,在市场上也看到了一些声纹技术应用的产品,比如支持声音解锁的智能手机。但是,与其他人工智能技术一样,声纹技术也面临着潜力巨大,但应用困难的问题,目前仍然没有成熟的产品出现。


百度大脑开放


在记者会上,新智元了解到,近日百度大脑官网(ai.baidu.com)全新改版上线,百度大脑不止小度可以拥有,现已全面开放给所有开发者。


改版后的百度大脑官网除了原本的语音技术、图像技术、自然语言、用户画像、和机器学习五个模块外,新版网页还新增加了AR 增强现实的功能技术,AR 内容平台能提供高效灵活的一站式的 AR 行业解决方案,贯穿各行业 AR 的内容创作、内容管理全流程服务。


此外,13类场景化技术服务、超过20种功能调用,相比原版网页,新版网页在对每一项技术分类上做得更加细致,能够全方位为企业/机构/创业者/开发者进行更细致、更明确的产品技术展示,并提供以 API 或 SDK 的形式的接口服务。


文章转自新智元公众号,原文链接

相关文章
|
11月前
|
机器学习/深度学习 人工智能 文字识别
AIGC背后的技术分析 | 计算机视觉
深度学习领域技术的飞速发展,给人们的生活带来了很大改变。例如,智能语音助手能够与人类无障碍地沟通,甚至在视频通话时可以提供实时翻译;将手机摄像头聚焦在某个物体上,该物体的相关信息就会被迅速地反馈给使用者;在购物网站上浏览商品时,机器也在同时分析着用户的偏好,并及时个性化地推荐用户可能感兴趣的商品。原先以为只有人类才能做到的事,现在机器也能毫无差错地完成,甚至超越人类,这显然与深度学习的发展密不可分,技术正引领人类社会走向崭新的世界。 PyTorch是当前主流深度学习框架之一,其设计追求最少的封装、最直观的设计,其简洁优美的特性使得PyTorch代码更易理解,对新手非常友好。
182 0
AIGC背后的技术分析 | 计算机视觉
|
机器学习/深度学习 算法 大数据
人机交互新进展:LFR-DFSMN语音识别声学模型介绍
语音识别技术是人机交互技术的重要组成部分,而语音识别中的声学模型是语音识别技术中的核心所在,堪称重中之重。阿里巴巴iDST智能语音交互团队最新的LFR-DFSMN模型相对于之前的LFR-LCBLSTM模型可以达到训练加速3倍、识别加速2倍、识别错误率降低20%和最终模型大小压缩50%的效果,实现了语音识别的迭代速度、识别成本、服务质量的全面提升。
8585 0
|
机器学习/深度学习 人工智能 自然语言处理
周伯文对话斯坦福教授曼宁:人机对话智能新进展需要新「图灵测试」
6 月 22 日,在 2020 智源大会上,有一场大佬对大佬的精彩会谈。
185 0
周伯文对话斯坦福教授曼宁:人机对话智能新进展需要新「图灵测试」
|
机器学习/深度学习 人工智能 算法
视频访谈百度IDL林元庆:百度大脑如何在人脸识别上战胜人类「最强大脑」
2017 年 1 月 6 日,百度首席科学家吴恩达带着小度机器人来到了《最强大脑》现场,与人类选手展开了对决,并在人脸识别比赛里以 3:2 的比分赢得胜利。Master 事件引发大众热议人工智能的余热未退,小度机器人又在跨年龄人脸识别挑战中战胜了本届最强大脑队长王峰——拥有数个世界冠军头衔的「世界记忆大师」。与以往主要考验空间搜索能力的人机 PK 不同,此次比拼主要集中在识别领域,而识别过程中需要模糊推理的能力,百度深度学习实验室(IDL)主任林元庆坦言,这场应战也并不轻松。
134 0
视频访谈百度IDL林元庆:百度大脑如何在人脸识别上战胜人类「最强大脑」
|
存储 人工智能 API
ai视觉能有多强?第四章-车辆保险应用
使用阿里云实现车辆保险应用开发
710 0
ai视觉能有多强?第四章-车辆保险应用
|
人工智能 智能设计 UED
ai视觉能有多强?
在这个人工智能已经普及的时代,各行各业都充斥着AI的身影。大部分人认为人工智能起点高,入门难,想要使用AI服务又无法独立完成编写,阿里云视觉平台是基于阿里巴巴视觉智能技术实践经验,面向视觉智能技术企业和开发商(含开发者),为其提供高易用、普惠的视觉API服务,帮助企业快速建立视觉智能技术的应用能力的综合性视觉AI能力平台。让我们跟阿里达摩院一起看看AI视觉到底能有多强?
199 0
ai视觉能有多强?
|
传感器 机器学习/深度学习 人工智能
AI仿生:人类进化新可能
看过《银翼杀手》这部开创赛博朋克风格科幻电影的人,一定会对电影中仿生人罗伊·贝蒂印象深刻,尤其是电影结尾时反派男主在滂沱大雨中的临终独白:看过《银翼杀手》这部开创赛博朋克风格科幻电影的人,一定会对电影中仿生人罗伊·贝蒂印象深刻,尤其是电影结尾时反派男主在滂沱大雨中的临终独白:
AI仿生:人类进化新可能
|
人工智能 自然语言处理 达摩院
秒懂人类人类语言的潜台词,阿里AI再创人机对话世界纪录
拿下两个世界第一,阿里人机对话模型成人工智能国际通用标准
607 0
|
机器学习/深度学习 人工智能 算法
DeepMind用深度学习模仿大脑推理,预测编码智能推进一大步!
预测编码理论认为,大脑的感知、运动控制、记忆及其他高级功能,取决于真实经历和大脑对未来的预测之间的差异。DeepMind新推出的“生成查询网络”模仿了大脑的预测编码机制,明显提升了预测系统的智能化水平。
1611 0
|
人工智能 C++
全球首场神经影像人机对决:AI战胜25位医界“最强大脑”!
昨天,备受关注的全球首场神经影像人机大战在国家会议中心举行,在脑肿瘤和脑血管影像判读比赛中,医疗AI最终以高出20%的准确率战胜25名人类医生。如果这款AI产品投入实用,核磁检查的出片速度将从现在的几天缩短至几分钟。
1742 0