吴恩达:大数据终将帮助机器拥有自主智慧

简介:
0.jpg 网易科技讯 8月30日消息,福布斯网站对加盟百度人工智能实验室的吴恩达进行了专访。文章指出,招纳吴恩达,体现了百度希望通过研发世界一流技术,将自身打造为世界前列的创新型公司的愿景。在以下访谈中,吴恩达透露了他将如何帮助百度实现这一愿景。


以下为文章主要内容:

今年5月百度在硅谷创立了人工智能实验室,并将吴恩达纳入麾下,任命为百度首席科学家。作为斯坦福大学计算机科学教授,吴恩达曾是Google Brain项目的负责人,并联合创建了在线教育初创企业Coursera。让百度成为国际化企业的发展规划中,吴恩达不失为核心人物。


问:你是如何对人工智能产生兴趣的?

答:过去我只是认为,让机器具备人工智能是再酷不过的事。高中暑假期间,我在新加坡国立大学做人工智能方面的实习生,任务是编写神经网络。它是深度学习算法的雏形。我觉得编写出能够自我学习并做出预测的软件是很有意思的。


如果我们能够让电脑更加智能,并更好地理解这个世界和环境,我们可以让许多人的生活变得更美好。正如同工业革命把我们从体力劳作中解放,我认为人工智能也存在巨大潜能,未来能够让我们摆脱大量单调重复的脑力劳动。


问:曾经有段时间,由于进展不顺,你对人工智能丧失了兴趣,是吗?

答:人工智能的远大前景是,机器总有一天将演变成像人类那样,能够完成一些具有自主智慧的任务。我刚进入斯坦福大学时,并不认为这种前景是可行的,因此当时有点困惑。人类的智慧或许是依赖某种学习算法,这是有据可依的。因此,我认为或许我们可以模仿人类大脑,建立更像人脑的智能,从而迅速取得进展。这些理念存在已久,但人工智能专家和人脑启发软件商Numenta的联合创始人杰夫•霍金斯(Jeff Hawkins)为普及这些理念做了不少贡献。


问:真正实现这些设想,你当前的进展如何?

答:我们与真正的成功距离遥远。我们面临很多问题。其中之一就是达不到应有的规模。当前我们对图像的处理规模远远不足。其二,我很肯定我们还未摸索出正确的算法。


问:但为什么近几年人们又重新燃起了对人工智能的兴趣和关注?

答:大约在四年前,2010年底,我们已经摸索出了许多算法,并意识到要推动人工智能技术更上一层楼的最大瓶颈是规模。如果我们使用现在的电脑运行20世纪80年代编写的软件,效果比使用那个年代的电脑要好很多。


因此2010年年底,我在硅谷寻求可能扩大算法规模的途径。谷歌拥有很多电脑,因此我在谷歌启动了一个项目,利用这些算法打造了规模超乎以往的神经网络。现在回想起来,这个项目取得成功的关键在于研发团队所接受的指令很单纯:建立尽可能大的神经网络。


问:你是指2012年Google Brain项目,当时该项目的神经网络成功地识别出猫的图像。

答:对。谷歌的神经网络竟然能够自己发现猫的定义,非常了不起。从来没有人告诉它什么是猫。那是机器学习的一个里程碑。这对许多公司,如Facebook、百度等等,都具有启发作用。


问:对这些公司而言,这一项目引人注目之处体现在哪里?

答:大多数具有经济效益的应用,到目前为止仅仅是从经过标记的数据进行学习。以语音识别为例。百度和谷歌已提高了语音的识别效果,他们依据的理论基础是,深度学习算法可以接纳海量的、转录为文本的语音数据。这就是经过标记的数据。由此我们可以训练神经网络进行预测。


从长远来看,还有种不同类型的深度学习,我对此感到很兴奋。它被称作无监督学习(unsupervised learning),是指从未经标记的数据展开学习,这更接近人脑的学习方式。Google Brain项目对猫的识别就是这方面的例子。我们曾经让神经网络连续一星期观看YouTube的视频,并且不作任何提示。一周后,我们做了测试,看看它学会了什么。结果它学会了识别人脸、猫脸和其他一些事物。从某种程度上,这是人工智能的一项重大进展。当前,监督学习是促使深度学习技术产生经济效应的重要功臣。而无监督学习与它不是同一概念。


问:你为什么看好无监督学习?

答:原因之一是,无监督学习最接近动物和婴儿的学习方式。如果想让当前的神经网络学会识别汽车,我们的做法是寻找5万张汽车图片,并把他们标记成汽车,再将这些标记数据输入到监督学习算法中。而孩子如何学会认识汽车呢?没有哪对父母会弄来5万辆汽车的图片。大多数神经科学家相信,大多数动物和孩子的学习仅仅是通过融入世界、亲身体验世界完成的。如果我们能在这方面取得进步,就能让神经网络系统更好地理解图像。


第二个原因在于,对于某些依赖监督学习的应用,我们能够提供的数据有限,从而限制了它的发展潜力。例如,医疗成像方面,全国进行的X射线扫描次数毕竟有限,因此能够得到的图像数据也受到限制。


问:现在就职于百度实验室,你关注的焦点是不是无监督学习?

答:它是初期的重要事项之一。无监督学习面临更多困难,前人的成功经验更少,而且不知道正确算法是什么。


问:如今存在一种趋势,即人们倾向于研究移动设备的计算和通信。此外,感官数据也在呈现爆发之势。这两个因素是否引发了人们对人工智能的热潮?

答:还有其他因素。大数据的发展源于两个趋势。第一,社会数字化的日益深入,衍生出电脑能够处理的电子数据。第二,存储和计算成本不断降低,最终使存储和处理所有这些数据的费用降至可承担的范围内。如果社会数字化持续发展,存储和计算成本继续下滑,大数据最终会发展成为一种潮流。


问:对于百度人工智能实验室,你短期或中期的具体规划是什么?

答:百度拥有三个实验室,两个北京的实验室已初具规模,而位于硅谷的人工智能实验室大部分是空荡荡的,才刚刚起步。我们招募新成员的速度很快,一周就招进一名成员,到今天为止,我们已经招了6个人。目前为止,他们都来自硅谷,而且都接受了我们发出的offer。我们还同硅谷以外的少数人接触,这需要更多的时间。我们还有很多工作要做。


问:对硅谷人工智能实验室,你心中是否已画好蓝图,例如,是否会效仿贝尔实验室、施乐帕克研究中心、谷歌或微软?

答:此前我曾与这些实验室的主管交谈过。今天早上我会见了SRI实验室的比尔•马克,之前也与许多相关领域的人交谈,如施乐帕克研究中心的前主管。我曾在Google X实验室工作。很久以前,本科期间和博士学位攻读早期的每年夏天,我都在AT&T贝尔实验室中实习。不断向他人学习、态度谦逊是很重要的。


问:一个成功的实验室最重要的因素是什么?

答:团队文化。


问:从一开始就要正确定位,这点很重要。如果一开始就走偏方向,要纠正是很困难的。你是怎么看?

答:初期过后,即使要做出些许改变也是很困难的。最关键在于,任务是什么。我所任职过的所有机构都以任务为主要动力。Coursera的使命是让每一个人享受教育,因此我们决定要实现这一任务的最佳途径是创建Coursera这家公司。现在,我面临的任务是通过人工智能技术改变世界。而我有种强烈的感觉,要实现这一点,最有效的方式是加盟百度。


问:为什么选择百度?

答:百度已经拥有非常先进的深度学习技术。它的深度学习实验室负责人余凯是深度学习方面的专家。深度学习对百度的核心产品,如网页搜索、广告、语音识别、光学字符识别等等,具有重要意义。李彦宏对人工智能抱有很大的热情。


我加入百度有三个原因。

其一,人工智能是一项资本密集型技术。要取得进展,则需要数据和计算机资源的支持。数据比计算机资源更难获得,但两者缺一不可。


第二是灵活性。作为一个大企业,百度拥有着令人难以置信的灵活性。举个例子,余凯想要创建一个图形处理器集群,在做完决定后,很快就付诸实践了。


第三就是员工的积极性。百度的工程师工作非常卖力。


问:在百度你打算如何展开未来的工作?除了互联网应用以外,是否会投入对机器人、无人驾驶车等类似产品的研究?

答:最初,我们只打算把焦点放在技术上。通常我倾向于先以产品为立足点,再考虑技术。纵观硅谷,大多数失败不是因为解决不了困难的技术问题,而是因为最终发现,费心费力解决的问题其实根本无人问津。


深度学习这项技术很不同,它在百度的许多产品中都已得到应用。人工智能对许多事物都具有重大意义。因此我不必担心我们的研究内容对当前或未来的产品是否具有实用性。


问:你将如何利用百度的技术基础设施?是否需要建造一些新的设施?

答:我在摸索如何利用当前的基础设施和开发工具使深度学习团队能够高效地产生新想法并进行测试及学习。例如,许多语音识别实验的实施大约需要一周。如果一周后才能获得结果反馈,就很难高效地进行学习。如果将时间减半,就能使团队的效率翻一番。


问:未来可能会研发出什么样的新技术?

答:我希望能够使百度当前的深度学习应用得到持续改进,如搜索、广告、语言翻译、光学字符识别和语音识别。


技术的进步分为两种。一种是渐进的,这种进步会受到人们的欢迎。例如,如果我们能够把网页搜索的性能提升5%,许多用户都将从中受益。


问:另一种呢?

答:另一种技术的进步是突破性的,它将推进前所未有的新应用的诞生。例如,如果语音识别技术进展到能够无障碍识别人类语言的程度,那么它将创造一种全新的手机互动模式。试想一下,如果我们在开车,哪怕车内很吵,我们仍可以通过向手机输入语音来向朋友发短信。这在现在根本无法实现。


如果我们能够真正解决语音识别问题,我想围绕语音界面对手机进行重新设计。或许未来移动设备上的email应用只需两个按钮:回复和删除。这只是我的想法,不一定可行。但这说明了,一些核心技术的突破将使人们的生活产生巨大的变化。



原文发布时间为:2014-09-02

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
人工智能 大数据 新制造
谈谈大数据和人工智能的9个应用场景【人与机器共生】
大数据时代,以数据为基础的技术正在改变人类的未来。
谈谈大数据和人工智能的9个应用场景【人与机器共生】
|
机器学习/深度学习 分布式计算 算法
腾讯大数据将开源高性能计算平台 Angel,机器之心专访开发团队
随着近年来深度学习技术的发展,各种机器学习平台也纷纷涌现或从专用走向了开源。到现在,一家科技巨头没有一个主导的机器学习平台都不好意思跟人打招呼。比如谷歌有 TensorFlow、微软有 CNTK、Facebook 是 Torch 的坚定支持者、IBM 强推 Spark、百度开源了 PaddlePaddle、亚马逊也在前段时间高调宣布了对 MXNet 的支持。 现在,腾讯也加入了这一浪潮。在 12 月 18 日于深圳举办的腾讯大数据技术峰会暨 KDD China 技术峰会上,腾讯大数据宣布推出了面向机器学习的「第三代高性能计算平台」——Angel,并表示将于 2017 年一季度开放其源代码。
415 0
腾讯大数据将开源高性能计算平台 Angel,机器之心专访开发团队
|
算法 大数据 数据挖掘
机器理解大数据秘密:聚类算法深度剖析
在理解大数据方面,聚类是一种很常用的基本方法。近日,数据科学家兼程序员 Peter Gleeson 在 freeCodeCamp 发布了一篇深度讲解文章,对一些聚类算法进行了基础介绍,并通过简单而详细的例证对其工作过程进行了解释说明。
1398 0
|
存储 新零售 搜索推荐
让机器读懂用户——大数据中的用户画像
让机器读懂用户——大数据中的用户画像 摘要: 用户画像(persona)的概念最早由交互设计之父Alan Cooper提出:“Personas are a concrete representation of target users.” 是指真实用户的虚拟代表,是建立在一系列属性数据之上的目标用户模型。
|
大数据
师北宸:小机器成就大数据
“数据是下一代设计。不考虑数据的产品将被被时代所淘汰。”帮助客户检测与分析移动与web用户数据与行为的Mixpanel公司CEO Suhail Doshi如是说道。Mixpanel是硅谷最成功创业孵化器Y Combinator的2009年夏季毕业生,并于去年获得安德森·霍洛维兹(Andreessen Horowitz)领投的超过1000万美元的A轮投资,在Mixpanel官网最显眼处,写着:“Actions speak louder than page views.” 即“用户行为远比网站访问数更有说服力”。
978 0
|
传感器 大数据
GE抢滩工业互联网 百万机器设备捆绑“大数据”
“如果我们不进入工业互联网领域,也会有其他公司进入这一领域。没有一家公司会忽略工业互联网革命带来的机会。”通用电气(GE)全球副总裁兼GE全球软件和分析中心负责人Bill Ruh在3月12日接受《中国科学报》记者专访时,如此表达GE在面对工业互联网革命时的紧迫心情。
1107 0
|
2月前
|
分布式计算 DataWorks IDE
MaxCompute数据问题之忽略脏数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
47 0