NVIDIA 深度学习部门总监 Jim McHugh :AI 驱动下的大数据之路已铺好

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
日志服务 SLS,月写入数据量 50GB 1个月
简介:

编者按:无论是打败世界冠军的 AlphaGo,还是百度无人驾驶、阿里和腾讯的人工智能都在使用 NVIDIA 的芯片组,它在人工智能领域扮演着大脑的角色。无论软件公司研究出多么先进的算法,最终都需要处理器来进行运算,没有它们的支持,人工智能的良性发展也就无从谈起。

最近,NVIDIA 深度学习部门总经理 Jim McHugh 接受了国外媒体 InsideBigdata 的访谈。从他在 2016 年纽约 Strata + Hadoop World 大会上的发言开始谈起,Jim 讲述了他对 AI 驱动下的大数据之路的总体理解以及 NVIDIA 公司的战略发展前景。文章原标题为 《 Interview: Jim McHugh, GM of the Deep Learning Group at NVIDIA 》,作者 Daniel D. Gutierrez 。由雷锋网(公众号:雷锋网)编译而成,未经许可,不能转载。

NVIDIA 深度学习部门总监 Jim McHugh :AI 驱动下的大数据之路已铺好

NVIDIA 深度学习部门总经理 Jim McHugh,图源:siliconangle

Jim McHugh 是 NVIDIA 深度学习部门的灵魂人物,在他的领导下,NVIDIA 推出了全球首款单机箱深度学习超级 AI 计算机 DGX-1。他的职责包括产品管理、产品营销以及提供合作伙伴解决方案。Jim 专注于为数据中心提供一些基于 GPU 的计算战略。作为市场商业执行、技术领导者,他已经有 25 年的实战经验,包括在苹果、思科等大公司担任重要职位的经历。Jim 对商业驱动因素、AI 驱动下的技术和产品,以及市场/客户动态有着深刻的见解。以下为本次访谈具体内容:

记者:

请简要介绍一下 NVIDIA 在本次会议上做的事情,并且就此次大会中所探讨的问题发表下见解。

Jim McHugh:

这对我们来说是件有趣的事情。昨天我在 O'Reilly 国际联盟举办的人工智能研讨会上发表了一个主题演讲。来自世界各地的 AI、大数据领域的学者和专家都参与了这次会议的探讨。谷歌在这方面很有代表性,我们已经有人正在关注人工智能的道德伦理问题。在这里,我们都在探讨一种 “加速数据分析”的概念以及它能够如何改变我们现在的人工智能格局。

说到这个,我不得不提到 Kinetica、MapD、SQream 和 BlazingDB 数据库以及一些分析组件。它们能够让你在几毫秒中完成运算。通常情况下,人们进行每次搜索时大概需要花费十几秒的时间才能得到答案,而现在,我们探讨的是能让你在几毫秒中完成对一个界面的数十次的搜索查询。以前,你花费 10 几秒的时间搜索查询所使用的很可能是 x86 处理器。而现在,人们无法想象我们的数据分析能力有多快。它真正地改变了一些东西,并且确实克服了人们在很长一段时间内在大数据领域遇到的瓶颈问题。

记者:

除了本次大会。你还参加过其他什么会谈吗?

Jim McHugh:

现在的格局是在不断变化的,我觉得这让人兴奋。在过去两年,分布式平台 Hadoop 的出现,还有 Spark 的诞生都是这个领域的大事。人们试图使数据分析变得更快,但我认为他们仍然受到一些阻碍——如果你只是干坐着等一分钟,然后再继续下一个搜索,人们就会感到厌烦。所以,我只是觉得这个领域(加速数据分析)很容易吸引众人的眼球。他们会说,“哇,你真能让我搜索得更快吗?”这意味着,搜素的速度就和你在开始时的思考速度几乎一样。更重要的是,这种搜索能够带给你更多可以去尝试的东西,而不只是试图回答你的问题。事实上,你正在进行一种探索,这使得搜索功能变得很酷。

另一个方面是,我不知道你是否听说过一个叫 Graphistry 的公司。他们是一个可视化的图形公司,在这里,我们正在与他们合作进行一些安全演示。该公司能够查看到你的安全日志。比方说,当你在使用安全日志分析时,你可以点击 Graphistry,在几行数字化代码的帮助下,它立即可以让你快速通过安全警报,然后你可以直观地将这些成百上千的安全警报进行自然的关联,最终你就可以弄清楚这是否只是从防火墙或内部排序扫描而形成的一些噪音。同样,这也是非常有趣的,并且得到了很多人的关注。因为人们有了这些所有的警报日志之后就能够做出一个安全报告。它实际上从可视化的角度更深层次地克服了盲点问题,并进行了有效的分析处理。在 Graphistry 和我们的共同展示下,查看安全日志的方式已经发生了改变。

记者:

在这个“AI 驱动下的数据分析”(AI driven analytics)领域,你如何看待 NVIDIA 合作伙伴的地位?

Jim McHugh:

我觉得在形容“ AI 驱动下的数据分析”领域时,用“前程似锦”这个时髦的词再好不过了。人们正在使用大数据来获取信息和进行商业活动。同时,我也看到这些合作伙伴做的第一件事就是要将数据分析工具的速度提高。方程式的另一边是成本问题,我们需要用最少的成本来完成加速计算的工作。当我们在扩展工具的时候会产生一部分的隐性成本,但我们不能只是使用更多的计算机设备来完成它,我需要大量的排气扇、互连线,机箱,这些所有的硬件或者技术。这就是为什么我们要寻求合作伙伴的原因。

第二步,我们要更加关注深度学习。深度学习的时代已经汹涌而至,它正在改变一切。人们想在进入某个特定的行业之前,就想知道深度学习是如何使得这个领域走在前列的。他们用图表分析的方法来理解数据。所以,你要想弄明白这两者的相关性,就必须获取 100 倍以上的数据。数据会告诉你它是如何理解这个领域的。因此,我们让一些应用程序允许你对数据进行追踪,成为你每天的商务分析师。如果你想了解更多,我觉得 Graphistry 提供了一个很好的方式。

因此,我所说的是两个不同的方面。首先,他们先对数据获取的方式加速,第二步,给到你一个可视化组件。最后一步就要考虑这些如何与人工智能进行融合。我已经沿着这些步骤与 MAPD 和 Kinetica 进行了一些对话。目前,我们的合作伙伴正在探索人们到底能够多大程度地对数据进行加速,以及如今将其运用到一些框架当中。

记者:

你认为现在走这条 AI 驱动下的数据分析之路还太早了吗?可以举一些例子来说明。

Jim McHugh:

我知道本公司的许多客户已经在使用这种模型,比如美国邮政,PGE,Verizon 公司,EMC 等。他们热爱这种方式带来的“加速度”。他们也说得很清楚——这种方法能节约成本。公司可以用节省下来的资金用于支付基础设施和一些技术开发。让我们停下来想一想,他们这样做的原因是什么。如果你是零售商的一员,你会希望追踪到库存的所有状况,从而快速地做出报告。而如果你在使用先前记忆的内存数据库,你就需要支付一笔昂贵的费用对它进行扩展,否则查询的速度会很慢。

现在我们已经有许多案例来证明这一点。在这里,我们的展位已经相当拥挤,很多人愿意停下脚步来关注我们正在做的事情。说实话,我很喜欢 Strata + Hadoop World 大会,这是一个真正以客户为中心来显示的活动。它让供应商们面对面的交流,也让观众能够驻足观看演示,询问我们更多的信息。有意思的是,当我们正在进行深度学习相关的演示时,观众开始聚集了起来。这说明,人们对于大数据领域的 AI 和深度学习是有着浓厚的兴趣的。

记者:

你能从现在看出一年后 NVIDIA 将如何走 AI 驱动下的数据分析之路吗?

Jim McHugh:

哈哈,我知道,你希望从我口中听到人们都在谈论的这个口头禅—— “AI 企业”。的确,这是一个非常合适的词来形容我们现在的业务布局——利用人工智能和机器学习来处理数据、获得信息。属于 AI 的时代已经到来。我相信,这也是我们进入 zettabytes (泽字节,大容量的储存容量单位)的一年。因此,我们的速度会更快。在大数据的洪流之中,人们在寻找新的方法来掌控自己的工作和生活。这也就是说,如果人们在看到数据类公司的展示时,他们更愿意停下脚步,然后会说,“ 嘿,我们可以用这个数据抓住更多的机会。”事实上,我们可以使访问数据、获取信息的速度更快,但我们要使用人工智能技术。NVIDIA 将开始使用机器学习和深度学习,真正把数据的优势利用起来。这就是我们的心态。用户不再觉得现在是处在一个“海量数据”的洪流当中,而是对数据的需求如饥似渴——你对数据开始有着永不满足的欲望,我认为这就是我们要去的地方。

而大家对这件事的反应也让我们挺吃惊的。在我们这个行业里,不断有人来对 NVIDIA 说,“我们需要加速!我们需要让我们的应用在 NVIDIA 帮助下加速!我们需要 GPU 加速!”因为传统的处理器速度更新频率并不高。事实上,我们全新的架构已经在给 GPU 进行加速,但是你要知道这个生态系统并不能使这样的更新经常发生。而问题的关键在于“ 我们如何加速?我们如何利用 GPU 的优势?它怎么才能完成目标?“ 只有这些问题解决了,才会真正到达“加速”的转折点。上个月,NVIDIA 总裁黄仁勋在 GTC 大会上说过,深度学习作为全新的计算模型正在改变计算的方方面面,它不仅改变了软件开发的方式、开发地点和运行方法,还在改变着服务器架构、数据中心和智能设备。而这一切都在 GPU 的帮助下,才能实现数据中心吞吐量最大化。我觉得这个理论很有趣。近两年,深度学习的发展迅速,而现在,是时候让人们意识到人工智能驱动下的大数据分析时代已经到来了。

 Via insidebigdata

推荐阅读:

为何大数据公司很多,AI公司却很少?

五分钟读完美国白皮书:为了人工智能的未来,政府都做了哪些准备?


本文作者:刘子榆


本文转自雷锋网禁止二次转载,原文链接

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
3月前
|
机器学习/深度学习 存储 分布式计算
ODPS驱动电商仓储革命:动态需求预测系统的落地实践
本方案基于ODPS构建“预测-仿真-决策”闭环系统,解决传统仓储中滞销积压与爆款缺货问题。通过动态特征工程、时空融合模型与库存仿真引擎,实现库存周转天数下降42%,缺货率下降65%,年损减少5000万以上,显著提升运营效率与GMV。
245 1
|
3月前
|
数据采集 人工智能 大数据
10倍处理效率提升!阿里云大数据AI平台发布智能驾驶数据预处理解决方案
阿里云大数据AI平台推出智能驾驶数据预处理解决方案,助力车企构建高效稳定的数据处理流程。相比自建方案,数据包处理效率提升10倍以上,推理任务提速超1倍,产能翻番,显著提高自动驾驶模型产出效率。该方案已服务80%以上中国车企,支持多模态数据处理与百万级任务调度,全面赋能智驾技术落地。
243 0
|
5月前
|
机器学习/深度学习 人工智能 算法
别再只看病了,来看看“大数据+AI”是怎么救命的!
别再只看病了,来看看“大数据+AI”是怎么救命的!
104 1
|
5月前
|
人工智能 分布式计算 大数据
大数据& AI 产品月刊【2025年4月】
大数据& AI 产品技术月刊【2025年4月】,涵盖4月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
|
6月前
|
数据采集 机器学习/深度学习 人工智能
面向 MoE 和推理模型时代:阿里云大数据 AI 产品升级发布
2025 AI 势能大会上,阿里云大数据 AI 平台持续创新,贴合 MoE 架构、Reasoning Model 、 Agentic RAG、MCP 等新趋势,带来计算范式变革。多款大数据及 AI 产品重磅升级,助力企业客户高效地构建 AI 模型并落地 AI 应用。
|
4月前
|
人工智能 分布式计算 DataWorks
大数据& AI 产品月刊【2025年5月】
大数据& AI 产品技术月刊【2025年5月】,涵盖5月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
|
4月前
|
人工智能 分布式计算 大数据
构建AI时代的大数据基础设施-MaxCompute多模态数据处理最佳实践
本文介绍了大数据与AI一体化架构的演进及其实现方法,重点探讨了Data+AI开发全生命周期的关键步骤。文章分析了大模型开发中的典型挑战,如数据管理混乱、开发效率低下和运维管理困难,并提出了解决方案。同时,详细描述了MaxCompute在构建AI时代数据基础设施中的作用,包括其强大的计算能力、调度能力和易用性特点。此外,还展示了MaxCompute在多模态数据处理中的应用实践以及具体客户案例,最后提供了体验MaxFrame解决方案的方式。
453 2
|
6月前
|
人工智能 分布式计算 大数据
大数据& AI 产品月刊【2025年3月】
大数据& AI 产品技术月刊【2025年3月】,涵盖3月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
|
5月前
|
人工智能 算法 自动驾驶
AI和大数据:是工具,还是操控人心的“隐形之手”?
AI和大数据:是工具,还是操控人心的“隐形之手”?
136 1

热门文章

最新文章