小度战平人类最强大脑后,我们和吴恩达聊了聊

简介: 继上周五百度的小度机器人在《最强大脑》节目中的跨年龄人脸识别任务中击败了人类顶级选手后,周五晚上,小度再次在声纹识别任务上迎战了人类最强大脑,并最终以 1:1 的成绩和人类打成了平手。节目之后,机器之心对百度首席科学家吴恩达进行了独家专访,请他谈论了小度在这场比赛中所用到的技术、百度的人工智能研究和团队以及他对中国和世界人工智能研究的思考。



961FDBAC-0BB3-47BF-9612-C0E4641BF57A.jpeg点击查看原视频


作为机器之心新栏目 AI Talk 的一部分,我们对这次视频专访的内容进行了剪辑,完整采访可见下面文字整理版本。


关于小度和声音/语音技术


机器之心:简单介绍一下,小度在本期节目中使用到的识别技术及其原理?


吴恩达:在比赛中,小度使用了 2 种前沿的声纹识别算法,为了识别出某个人,会把两种算法的结果结合在一起。


其中一种方法是基于卷积神经网络,这是一种端对端的方式。卷积网络把输入切成声音片段,然后尝试识别这些片段是不是来自同一个人。这个神经网络是在 2 万多人的大约 5000 多小时的音频数据上训练出来的。这是一个很大的音频数据集,它使得神经网络变得相当准确。


我们的第二个系统也有神经网络,但结构不同。第二个系统采用声音片段作为输入,神经网络输出 5000 维表征语音,并基于此进行统计建模。通过统计建模后的结果,抽离出说话人相关的信息,选择出 500 个特征来表征说话人的属性,而不是说话的内容。随后,使用这 500 个特征匹配两个说话人,并判断出是否是同一个说话人。


最终,我们用这两个神经网络让它们投票,从而做出最终决策。


机器之心:看起来语音识别要比语义识别更简单一些,你认为什么时候可以实现人类水平的机器语义识别,从而让人类可以和机器顺畅地交流?


吴恩达:让计算机以人类的水平来完全理解自然语言,这还需要很长的时间,可能需要几年,也可能是几十年,我们难以确定。但我们可以预见在一些非常垂直的应用领域,比如询问天气、叫外卖、拿快递,或者推送今天的新闻这样的基础问题。这些方向非常的垂直,我们看到了自然语言处理在这些方向上的快速发展。以百度的度秘为例,你已经能与这个机器人进行交流,它可以给你合理的答案。在垂直领域它可以做得很好,研究人员有时间考虑到所有的可能性。


我认同你所说的语音识别在过去两年已经取得了巨大的发展。事实上,语音识别如今很准确,使得更多用户用它作为文本输入。


几个月前,斯坦福大学联合百度与华盛顿大学做了一项研究,表明目前的手机端语音输入要比键盘输入快 3 倍还要多。事实上,过去 12 个月里,我们看到所有百度产品上的语音日使用量增加了一倍,也就是语音服务的使用增长了一倍。所以,那些想要更高效、更便利地使用手机的用户更倾向于使用语音输入。


机器之心:百度语音平台免费提供了一些 API,它能实现什么功能?如何从中受益?


吴恩达:语音已经变成一个非常重要的人机交互方式,在百度大脑,我们正在努力实现越来越多的语音功能并帮助人们用上这种强大的能力。在我们的网站上,最受欢迎的语音功能是语音识别、TTS(尤其是情感 TTS)以及语音唤醒。我们的团队在不断努力将越来越多百度的最好语音技术放到网站上。我们知道,对于第三方公司来说,获取这些技术是非常有用的,但也还需要知道如何有效地使用这些技术。所以百度大脑做的另一件事情是创造能够帮助第三方组织、开发者和公司了解如何最有效地在他们的产品中使用这些技术的材料。所以我们也正在将越来越多这些训练材料放到我们的面向公众的网站上。


机器之心:百度是如何提升语音输入法的识别精度的?其中最困难的部分是什么?


吴恩达:你知道,机器学习系统得到最好表现的一种最可靠的方式是在大量的数据上训练大型模型。如今百度的语音识别系统是建立在 5 万小时的数据上的,这是一个超过 5 年的音频数据。此外,我们在超级计算机上训练模型,它给了我们非常大的计算能力,从而建立足够大的神经网络吸收这些数据。


除此之外,我们面临的一些挑战是在缺少资源的语言和方言中。我们在尝试让百度语音识别系统覆盖更多的方言。在有很小数据集的方言上,我们尝试了在普通话上学到的东西,并将这些知识用到不同的方言上。所以,百度有很多积极性的研究是关于在没有普通话那样大量数据的情况下,研究在方言上做到最好的算法。


另一个研究挑战是如何让语音识别在没有很多数据的新领域、新应用场景中有好的表现。例如,在不同的语音应用场景,语音片段听起来也各不相同,比如很多口语化的语音的识别问题。在这些小的新垂直应用中,我们没有很多的数据。所以我们也在做大量的研究,想要搞清楚从现有收集到的 5 万小时的数据中能学到什么,然后专门应用到新的垂直领域与新应用中,这些领域中的音频质量或说话方式与我们的训练数据有很大不同。


你知道,语音识别有了极大的发展,在很多领域有很大的应用。但在语音上,仍有许多的研究需要完成。


机器之心:在 CES 2017 上,百度发布了 DuerOS,你也曾提到今年是对话机器元年,应该如何理解?


吴恩达:我认为我们进入了语音对话接口成为必要事物的计算新时代。20 年前,我们大部分使用台式计算机或笔记本的键盘。大约 10 年前,乔布斯发布了 iPhone,开启了手触屏幕与手机以及其他设备交互的时代。


我认为人机交流的下一个时代是语音交流接口,而且我认为这一趋势如今刚好起飞。因为这一技术刚好到达了这样一个点,你可以坐在家中与对话计算机进行交流,询问航班以及其他信息,而且它们能了解你说的什么,并为你提供有用的信息和服务。


所以,我对对话计算时代黎明的到来非常乐观。事实上,我们在中国感受到的一件令人激动的事是我们看到了很多的创新,不同的团队建立了不同的很有创意的硬件。比如,小鱼在家、智能音箱、电视盒子等等。


有了 DuerOS,我们希望能帮助所有的这些硬件制造者将人工智能、语音对话智能加入到硬件中,从而让更多这样的设备进入家庭。


机器之心:你认为语音识别技术未来将在哪些领域发挥最大作用?


吴恩达:我认为语音在 4 个类别中将会快速起飞。


第一个是手机。因为在智能手机上语音输入要比键盘输入更快,所以百度在手机的语音识别上增长迅速。


第二个是家居场景。我们看到了智能音响(smart speakers)的崛起,出了智能音响,我认为小鱼在家、电视盒子这样的设备也在增加。我们把这种坐在家的体验叫做背靠式体验(lean back experience),也就是你能背靠沙发发号施令,然后各种家居设备会了解你的需求并作出回应。


第三种是汽车场景。在你驾驶的时候,手放在方向盘上用说的方式与汽车交流,它就知道你想做什么。所以我认为在这个场景中也会发展。


最后是可穿戴设备。大部分可穿戴设备没有很大的界面,比如智能手表等。所以我认为在这个垂直领域,语音会慢慢发展。


所以,我认为语音是让你与机器交流如此高效的一个接口,它会在这些垂直领域有很快的发展。可能也有其他领域。


机器之心:您怎么看语音识别技术的商业前景?


吴恩达:在手机百度、百度地图、百度输入法等许多百度的产品中,我们可以看到过去几年中语音的使用变得越来越频繁了,因为这对用户来说是一个方便得多的文本输入方式。所以有大量第三方硬件制造商、软件开发商和开发者想使用语音来帮助他们的用户与他们的应用或设备进行更加自然和方便的交流;百度大脑项目也是一样,我们通过我们免费的语音识别 API 发布了我们的产品,让第三方也能用上我们的技术。语音识别是最难、门槛最高的技术之一,在百度,我们有幸能够使用足够的资源开发出非常好的语音系统。所以我们希望能够通过我们的技术来帮助许多开发者和企业组织,让他们的用户也能将语音作为一种输入方式。


百度的人工智能研究团队


机器之心:百度人工智能团队的日常工作是怎样的?是什么创新机制在支撑团队保持创造力?


吴恩达:现在正是从事人工智能工作的好时候,你能看到有人将人工智能比作是「新型电力(new electricity)」——就像一百年前电力变革了一个又一个的行业一样。我认为人工智能也将类似地给交通和通信等许多行业带来变革。我们很幸运有这么多出色的人才在百度工作,他们不仅在努力使用百度的数据和计算资源来提升这些技术,而且也在寻找新的语音识别和人脸识别等技术并将它们投入到可以真正帮助人们的新场景、新产品和新应用中。每天我到百度工作时,我都为我们有这些能够帮助很多人的技术而感受振奋。


在这里我想额外补充一点。我想对所有还在考虑自己的职业生涯的年轻人说一句,我知道当你很年轻的时候,有时候你无法确定该追求怎样的事业。我认为我们现在正生活在一个人工智能领域有无穷机会的时代,如果你还不确定你该做什么,可以考虑加入我们来开发人工智能、研究人工智能,未来几年这一领域将有非常大的机会。


机器之心:在将人工智能研究成果产品化的过程中,百度人工智能团队是如何与其它业务部门协作的?


吴恩达:将最新的人工智能投入到产品中通常需要多个不同职能的团队的协同。比如说,将语音识别技术集成到手机百度应用中,实际上是有很好的语音识别技术的语音技术团队和有很好的搜索技术的搜索团队的合作成果;正是这种互相理解的合作才让我们的手机百度具备了出色的语音输入能力。再举另一个例子,今天在进行金融交易时,我们会使用人脸识别来确认人们的身份,这也是我们 IDL 的计算机视觉团队与金融服务团队(他们有金融产品和深度的领域知识)合作的成果。所以在百度工作,这方面还是非常好,我们的技术团队可以很容易去创造或发明新技术,并且可以轻松地和其它出色的产品团队合作,将这些新技术快速投入到产品中从而为他们的海量用户提供帮助。


机器之心:百度在招募人才、组建人工智能团队方面,有哪些经验可以分享?


吴恩达:你知道如今人工智能发展迅速。我认为百度持续在做的一件事是在职员上做投资,扩展我们的团队。据我所知,百度在职员培养、训练上的投资要比其他公司都大,我们进行常规的课程从而让团队了解最新的人工智能技术,所以我们的团队会变得越来越好。


在美国和中国,我认为百度正在获得这样的声誉:如果你想要学习人工智能,这里就是你该去的地方。也许很多人不了解,但我认为对全世界的科技巨头而言,李彦宏是第一个意识到深度学习巨大潜力的领导者。我认为李彦宏具有很深的技术背景,同时对人工智能技术有着透彻的理解。我们很幸运在百度成立 17 年的时间里,有他一直在带领着公司建立并且积累基础的人工智能科技。我认为我们现在的这些成果都是建立在李彦宏打下的基础之上的。


我们都知道 IDL(百度深度学习实验室)主任是林元庆,但很少有人知道其实 IDL 的第一位主任是李彦宏本人。他预见了深度学习的发展趋势,并希望百度首先投入其中。不仅仅是在中国,放眼全世界的科技公司,你很难找出一个和李彦宏相似这样有预见性的领导者了。


对人工智能领域的看法和期望


机器之心:小度在《最强大脑》的节目中表现优异,但人工智能技术在实际应用层面还面临诸多挑战,比如无人驾驶汽车的安全性等,您怎么看待这一类难题?


吴恩达:当飞机在大雾或雨天着陆的时候,基本上都是在用基于计算机软件的全自动驾驶。所以,我认为如今已经有了能做出与性命相关决定的软件。我认为,如今有了人工智能,这些重要决定将会更容易作出。无论它是设定在自动驾驶内,还是医疗领域中(比如自动诊断)。当然,我认为人工智能研究者还面临着一个重大责任——就是在各个垂直领域内作出谨慎的评估,这才能够让人们更加相信人工智能。


说到自动驾驶汽车,这是近年来快速发展的另一领域。它面临的一个重大挑战就是:现有的交通法规大部分是为人类驾驶员所写的。所以自动驾驶在发展中面临的最大挑战就是需要制定既适用于人类又适用于计算机驾驶员的新法规。我认为这是加速全球自动驾驶普及的关键。


机器之心:很多人说可怕的不是人工智能,而是人工智能落到的坏人手里。您怎么看待这一说法?如何防止出现这样的现象?


吴恩达:之前我们将人工智能比作是新时代的电力——就像是一百年前电力是新出现的超级力量一样,现在的超级力量就是人工智能。在绝大多数情况下,电力都给我们这个世界带来巨大的好处,我们现在几乎不能想象没有电的生活;但不幸的是,电力也被用在一些不好的方面。幸运的是,我认为现在绝大多数人工智能领域内的人都是好人,我们做人工智能是因为我们希望帮助人类。所以我相信总的来说,人工智能将给这个世界带来很大的积极影响。我也认为每一个人工智能工程师和研究者都有个人责任,确保其成果能够有益于这个世界。基于我对全球人工智能业界的了解,我认为现在全球人工智能行业整体上都在做着非常有益于这个世界的事情。


机器之心:你曾经在《哈佛商业评论》中撰文呼吁各大公司设立首席人工智能官(Chief AI Officer),你认为首席人工智能官需要具备什么样的特质?


吴恩达:百度是世界上最好的人工智能公司之一,我们在公司的每一天都在思考人工智能。我希望能够将我们的一些想法和人工智能社区以及世界上的其他人分享,从而帮助推动全球人工智能的发展。


关于首席人工智能官,我认为目前人工智能所面临的难题之一是:将这种我们已经拥有的技术应用到能够真正有助于我们的业务的使用案例中。所以我认为首席人工智能官应当具备两种关键技能:一是理解这种技术(这很重要却也很难),二是了解自己公司的业务并且搞清楚如何将这些让人惊叹的人工智能技术和你的业务匹配起来,从而让你能够创造出重要的价值。


机器之心:大公司都在重金投资人工智能领域,它们也在数据量上拥有绝对优势,您认为初创型公司还有机会在竞争中占据主导位置吗?


吴恩达:我们最好的语音识别系统大约是在 5 万小时的数据上训练的。我们的语音识别系统,也就是小度这次使用的这套系统是在 2 万说话人数据的基础上训练的。所以如今就有一些问题,如果你想要获得顶级系统,我们就需要大量的数据。所以在一些领域中,小公司使用如今已有的科技建立百度这样有效的系统还是很有挑战的。


但我认为在一些垂直领域中,例如,在罕见疾病的医疗成像上,全世界在这些领域可能都没多少图像。所以,我认为在这些垂直领域中,即使少量的数据也可能建立有相当好表现的系统。


尽管如此,我也认为百度的数据、资本、超级计算机,再加上我们的人才,确实使得我们能更快地建立最好的人工智能系统。


机器之心:人工智能的技术研究在哪些方面改变了百度,又将如何渗透到更多的行业?


吴恩达:人工智能已经完全变革了百度——从网页搜索到我们组织外卖送递的方式,再从我们推荐内容的方式到我们进行人脸识别、身份认证、语音识别的方式等等。所以这些都已经用到了人工智能。我认为除了变革百度的产品之外,我们也很高兴能将人工智能技术提供给第三方,让它们也能使用我们的语音、计算机视觉、NLP 等等各种不同的人工智能技术来变革自己的产品。


我认为,人工智能会在未来改变所有行业的形态。有的时候我的朋友会和我打赌,看看某个行业在最近几年不会被人工智能所改变。你也可以尝试想想看,实际上我们很难想出在未来几年不会受到人工智能影响的行业。我最喜欢的例子是理发师,实际上我发现创造一个能够理发的机器人是很困难的。曾经我在台上演讲也说过类似的话,但我有一位机器人学教授朋友告诉我,她说对于大部分的发型来说确实如此,机器人很难帮他们理发;但她也指出:「至于你的发型嘛,我可以让个机器人剪出来。」所以我觉得实际上我们很难确定一个不会被人工智能改变的领域,我认为不管你的业务是什么,都可以考虑一下利用人工智能来增强你的优势。


机器之心:你想对中国的人工智能从业者和机器之心说些什么?


吴恩达:我认为中国很幸运有机器之心这样的顶尖媒体将全世界的人工智能进展快速分享给中国的读者。实际上,中国和世界的信息传播有一种奇怪的不对称——全球的人工智能进展可以非常快速地传播到中国,但有时候百度等在中国发布或发表的进展却很少让世界其它地方的人知晓,这可能是因为他们并不阅读中文的媒体。当然我希望这种世界向中国的知识共享能够继续,我也希望我们能做些什么来帮助世界其它地方的人更快地了解中国的人工智能发展和前沿成果,这样我们就能让整个世界的人工智能研究社区都更快速地进步了。




A371C853-C532-4CEB-B6C7-33B831618D8A.jpeg

「AI Talk」 是机器之心最新出品的视频访谈栏目,旨在邀请国内外人工智能顶级专家分享对技术和行业的观点,为大家呈现更为直观、丰富的内容。



©本文为机器之心原创,转载请联系本公众号获得授权

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
7月前
|
人工智能 自然语言处理 机器人
【AI 学习笔记】第一章:chatGPT的降临,让我害怕
【AI 学习笔记】第一章:chatGPT的降临,让我害怕
|
机器学习/深度学习 Web App开发 自然语言处理
强化学习大牛Sergey Levine新作:三个大模型教会机器人认路
强化学习大牛Sergey Levine新作:三个大模型教会机器人认路
326 0
|
人工智能 自然语言处理 自动驾驶
没想到,没想到,AI背后还有这些弯弯绕
不管是最近以ChatGPT、Bard为代表的人工智能内容生成,还是更早前以L2、L4多个等级为代表的自动驾驶,都离不开AI的身影。那么,在AI这条宽敞、光明的赛道,要如何愉快地奔跑呢?今天,我们就以自动驾驶为例,聊一聊AI背后的那些“科技与狠活”。
259 0
没想到,没想到,AI背后还有这些弯弯绕
|
存储 安全 算法
学习中涌现的面试问题
学习中涌现的面试问题
109 0
学习中涌现的面试问题
|
机器学习/深度学习 人工智能 自然语言处理
春节在家不再无聊,这份2019 AI研究进展回顾陪伴你
新春快乐!2019 年刚刚过去,去年有哪些最重要的研究是必须要记住的?本文将带你一并回顾
285 0
春节在家不再无聊,这份2019 AI研究进展回顾陪伴你
|
存储 iOS开发
11个小妙招激发你的灵感
感到自己深陷千篇一律的设计泥潭无法自拔? Stylorouge的Rob O’Connor为你送上下面几条建议帮助你解放自己的想象力。 找不到设计灵感?项目在眼前却不知道如何着手或者找不到合适的入手角度?挣扎着想克服阻拦创意的屏障?
199 0
11个小妙招激发你的灵感
|
机器学习/深度学习 人工智能 自然语言处理
“预习-上课-复习”:达摩院类人学习新范式探索
预习时关注重点,上课时由易到难,复习时举一反三,能否让机器也按照“预习-上课-复习”的学习范式进行学习呢? 达摩院对话智能(Conversational AI)团队对这个问题进行了研究探索,先将其用在了人机对话领域,在国际知名多轮对话数据集MultiWoz上取得了最好结果。
“预习-上课-复习”:达摩院类人学习新范式探索
|
程序员
《认知颠覆》读书笔记之十
你知道生一个孩子和生多个孩子,在培养策略上会有什么差别吗? 来了解一下K策略和R策略吧。
142 0
|
人工智能 安全 计算机视觉
高考来了,AI登场
人脸识别将成为高考身份核验主流?
1428 0