比以往任何时候都更重要的是,对于每个新的数据中心工作负载,IT组织必须回答的问题是在哪里运行。如今,最新的企业计算工作负载是机器学习(或人工智能)的变体,无论是深度学习模型培训还是推理(使用经过培训的模型),人工智能基础设施已经有太多的选择,因此很难直接为企业找到最佳的解决方案。
市场上有各种各样的人工智能硬件选项,广泛且快速增长的人工智能云服务范围,以及用于托管人工智能硬件的各种数据中心选项。Nvidia公司是机器学习基础设施生态系统中最重要的一家公司,它不仅为全球的人工智能工作负载(Nvidia GPU)销售和生产大多数处理器,它还构建了大量运行在这些芯片上的软件,并销售自己的人工智能超级计算机。
行业媒体Datacenter Knowledge(DCK)与Nvidia公司的DGX人工智能超级计算机高级营销总监Charlie Boyle一起探讨了人工智能硬件发展和人工智能基础设施的发展趋势。以下是采访内容:
DCK:企业如何决定是将云计算服务用于其机器学习还是购买自己的人工智能硬件采用机器学习?
Charlie Boyle:我们的大多数客户都使用内部部署和云计算的组合。我们看到的最大动态是数据所在位置决定处理它的位置。在人工智能环境中,需要处理大量数据才能得到结果。如果所有这些数据都已经存在于企业数据中心中(企业可能收集了10~30年的历史数据),那么希望将处理过程尽可能接近企业所在的位置。因此,它有利于内部部署系统。如果是一家业务从云端起步的公司,并且其所有客户数据都在云端,那么最好在云平台中处理这些数据。
DCK:是因为很难将大量数据移入和移出云端吗?
Charlie Boyle:这还取决于企业如何生成数据。大多数企业的数据都是动态的,因此总是会添加数据,因此,如果他们在系统中收集所有数据,那么他们就更容易继续在内部处理它们。如果他们将大量数据聚合到云服务中,那么他们就会在云平台上处理它。
这适用于生产用例。许多实验性用例可以从云端开始,企业只需启动浏览器即可访问人工智能基础设施,但随着他们转向生产,企业就可以做出本地决策、财务决策、安全决策,以及是否更好地在内部部署或在云平台上处理它。
Nvidia公司的客户通常在内部进行一些人工智能模型培训,因为这是他们的历史数据所在。他们构建了一个很好的模型,但是该模型随后由他们的在线服务提供服务——他们在云中基于他们在内部部署构建的模型进行的推理。
DCK:对于那些在自己的内部部署或托管数据中心运行人工智能工作负载的企业,考虑到机架的功率密度越来越高,您认为他们将采用哪种冷却方法?
Charlie Boyle:数据中心采用液体冷却还是空气冷却始终是一个热门的争论话题,我们一直在研究这个问题。一般来说,数据中心运行大量服务器机架,有的多达50个,采用传统的空气冷却设施效果良好。当运行更高功率密度的机架时,例如机架的功率为30千瓦~50千瓦,通常采用水冷式热交换器进行冷却,这就是在数据中心实施的最新冷却措施,因为这样数据中心就不会改造冷却系统本身的管道。
现在,我们的一些OEM合作伙伴也基于我们的GPU构建可以直接冷却芯片的水冷系统,一些企业希望构建一个超级密集的计算基础设施,他们将会提前部署冷却基础设施。但是,通过我们与大多数托管服务提供商的合作,发现只有水冷系统才能更好地支持高功率密度的机架运行。
直接冷却芯片更像是一个运营问题。我们的技术现在可以做到,但如何为它提供服务呢?对于正常运营的企业来说,这将是一个学习曲线。
DCK:NVIDIA DGX系统和其他GPU驱动的人工智能硬件如此密集,以至于无法采用空气冷却进行冷却吗?
Charlie Boyle:我们所有系统都可以采用空气冷却和液体冷却技术。主要是因为我看到大多数客户都在采用这些方法。在我们对于功率密度的处理并不是固有的方法,因为在可预见的将来,我们不能实施空气冷却或混合冷却技术,这主要是因为大多数客户会受到机架功率的限制。
现在,我们正在运行30~40kW的机架。当然也可以运行100kW和200kW的机架,但现在没有人愿意部署这样功率密度的机架。那么可以采用液体冷却吗?也许,但它确实是每个客户最有效的选择。我们看到客户采用混合体冷却方式,他们正在回收废热。我们将继续关注这一点,继续与在这些公司合作,看看他们的方法是否具有意义。
我们的工作站产品DGX station采用的是一种内部闭环水冷技术。但是在数据中心基础设施的服务器端,大多数客户还没有采用。
DCK:大多数企业数据中心甚至不能冷却30kW和40kW机架。这是DGX产品销售的障碍吗?
Charlie Boyle:这并没有障碍,而是一个对话点,这也是我们宣布DGX就绪计划第二阶段的原因。如果只是谈论安装这样的机架,任何数据中心都可以支持,但是当数据中心安装了50~100个这样的机架时,那么企业需要重新建设数据中心或者寻求托管数据中心服务商的帮助。
这就是为什么我们试图消除DGX产品销售阻碍的原因,通过与这些托管数据中心服务商合作,让我们的数据中心团队对他们进行尽职调查,以便他们拥有更高的功率密度,并且需要实施液体冷却,所以客户可能需要部署50个DGX-2超级计算机的空间,数据中心提供商已经有了这些数据,然后向我们订购。
当我们三年前推出这些产品时,有些客户购买几套产品时,他们会提出如何大规模购买和安装的问题,我们的一些客户选择建造新的数据中心基础设施,而另一些客户则向我们寻求有关托管数据中心服务商的建议。我们为此构建了DGX就绪数据中心计划,以便客户不必为此等待。
即使对于拥有强大数据中心设施的客户,他们也多次向我们公司购买一些30kW的机架。或者客户可以与我们的托管数据中心合作伙伴进行合作,可以更快地获得服务和产品。
DCK:您是否看到客户选择托管数据中心服务商,即使他们拥有自己的数据中心空间?
Charlie Boyle:由于人工智能设备对大多数客户来说通常是一种新的工作负载,因此他们不会试图采用现有的基础设施,可以为此建设或购买新的基础设施,所以对于他们来说,部署在他们的数据中心或者托管数据中心,这并不重要——只要经济有效,并且可以很快完成工作。这是大多数人工智能项目中的一个重要组成部分:他们想快速展示成功。
即使是Nvidia公司,我们在总部(位于加利福尼亚州圣克拉拉)附近采用多个数据中心供应商提供的服务,因为我们有办公空间,但没有数据中心。幸运的是,在硅谷,我们周围有很多优秀的供应商。
DCK:Nvidia公司正在推广DGX作为人工智能的超级计算机。其架构与传统高性能计算(HPC)工作负载的超级计算机有什么不同吗?
Charlie Boyle:大约五年前,人们看到高性能计算(HPC)和人工智能系统之间存在非常明显的差异,但是现在,这二者很多功能已经合并。以前,每个人都认为超级计算机是64位、双精度。而人工智能工作负载主要是32位或16位混合。而这两种技术应用在两个不同的场合。
人们现在看到的是一个典型的超级计算机会在很多节点上运行一个问题,而在人工智能工作负载中正在做同样的事情。MLPerf(人工智能硬件性能基准测试版)刚刚发布,大量节点只完成一项工作。人工智能和高性能计算之间的工作量实际上非常相似。使用我们最新的GPU,可以提供传统的高性能计算双精度,人工智能为32位精度,并加速人工智能混合精度。
传统的超级计算中心现在都在采用人工智能技,可能已经建立了超级计算机,但他们都在同一个系统上运行超级计算机任务和人工智能工作负载。
这两者的架构相同。在过去,超级计算使用的网络不同于传统的人工智能。现在一切都融合了。这就是客户为什么要买Mellanox产品的部分原因。现在,超级计算基础设施对于双方都至关重要。人们认为它只是一个深奥的高性能计算机,但它将会成为主流;而企业现在将它作为他们的人工智能系统的支柱。
DCK:人工智能硬件有着激烈的竞争,例如谷歌的TPU、FPGA,云计算提供商和创业公司设计的其他定制芯片,这是不是Nvidia公司的关注点?
Charlie Boyle:我们总是关注竞争,但我们的竞争对手以我们为基准。我们在这个行业如此多产的部分原因是我们无处不在。在谷歌云平台中采用Nvidia GPU,而在亚马逊云平台中,也有Nvidia GPU。
如果笔记本电脑配有Nvidia GPU,可以对此进行训练。我们的GPU运行一切事务,可以在笔记本电脑上进行深度学习训练的软件堆栈与在我们在超级计算机上运行的软件堆栈相同。
当所有这些创业公司和不同的人选择一个基准时,这是一个巨大的问题。例如有的公司表示,“我们真的很擅长ResNet 50。”如果只做ResNet 50,这只是企业整体人工智能工作量的一小部分,所以具有软件灵活性和可编程性对我们来说是一笔巨大的财富。为此,我们在过去十年中建立了一个生态系统。
这是我认为这个领域的创业公司面临的最大挑战:企业可以开发构建一种芯片,但是当笔记本电脑和每个云中都没有采用这种芯片时,让数百万开发人员使用其开发的芯片是很困难的。当查看TPU(谷歌的定制人工智能芯片),TPU仅在他们认为适合的一些工作负载中提交。而我们提交最新的MLPerf结果时,我们可以提交几乎所有类别。
具有市场竞争是一件好事,它可以让企业变得更好。而凭借拥有的技术和生态系统,我们才能拥有真正的优势。
DCK:传统的HPC架构与人工智能融合意味着传统的HPC供应商现在正在与DGX竞争。这会对你的工作带来困难吗?
Charlie Boyle:我认为它们根本不是竞争对手,因为这些公司都使用Nvidia GPU。如果我们向客户销售系统,或者HPE、Dell或Cray向客户销售系统,只要客户满意,我们就没有问题。
我们制造的软件在我们自己的几千个DGX系统上运行,通过我们的NGC基础设施在内部提供(NGC是Nvidia公司的GPU优化软件在线分销中心),因此我们所有的OEM客户都可以下载相同的软件。在容器中也使用相同的软件,因为我们只希望每个客户都拥有最佳的GPU体验。
因此,我不认为这些公司是竞争对手。作为产品线所有者,我们与我的OEM合作伙伴分享了很多东西。我们总是先构建DGX系统,因为我们需要证明它是有效的。然后吸取这些经验教训,并把它们提供给我们的合作伙伴,以缩短它们的开发周期。
我们会和任何一家OEM公司进行沟通,如果他们正在考虑建立一个新的系统,我们可以为他们提供帮助。
DCK:DGX中是否有独特的Nvidia IP未与OEM厂商共享?
Charlie Boyle:独特的IP是我们在Nvidia内部为我们自己的研发而建立的令人难以置信的基础设施:我们所有的深度学习研究,这些都是在几千个DGX系统上完成的,所以我们从这些系统中学习,并将学习成果传递给我们的客户。在HPE、戴尔或Cray系统中也可以找到同样的技术。
我们从客户那里听到的一个常见问题是,“我想使用你们用的东西。”其实那就是DGX系统。如果客户喜欢使用HPE系统,因为他们喜欢采用其管理基础设施。
但从销售和市场的角度来看,只要人们购买GPU,我们就会感到高兴。
DCK:谷歌公司最近宣布了一种新的压缩算法,使人工智能的工作负载能够在智能手机上运行。未来数据中心需要更少的GPU,因为手机可以完成所有的人工智能计算吗?
Charlie Boyle:世界总是需要更多的计算。是的,手机的功能将会变得更强大,但世界对计算的渴望正在不断增长。如果我们在手机中加入更多计算机功能的话,这意味着什么?
如果人们经常旅行,可能会熟悉美联航或美国航空公司的语音应答系统:在过去的几年中,其功能变得更好,因为人工智能正在改善语音响应。随着它变得越来越好,人们需要更多的服务,更多服务意味着更多的计算能力。所以需要更多的GPU来完成这项任务。因此,在手机上使用的功能越好,对我们来说就越有利。我认为所有消费者服务都是如此。
DCK:您是否在移动网络边缘看到了令人信服的机器学习用例?
Charlie Boyle:我们与很多电信公司开展合作,无论人们使用流媒体,还是使用个人定位服务,电信公司总是试图靠近客户。大约十年前,我曾在电信公司工作,一直渴望把很多服务迁移到边缘。我们看到一些机器学习应用程序将在边缘运行。随着5G的推出,人们只会看到更多的东西在边缘运行。
DCK:电信公司在边缘测试或部署什么样的机器学习工作负载?
Charlie Boyle:这一切都是针对特定用户的服务。如果人们在某个地区,手机上的应用程序已经知道其在该区域,可以为其提供更好的建议或更好的处理方法。然后,随着人们开始消耗越来越多的内容,随着带宽的提高,更多的处理将转移到更远的边缘。
DCK:虽然电信公司是将计算推向边缘的公司,但他们是否也会提供您所指的所有丰富服务?
Charlie Boyle:有时候他们正在构建服务,也会购买服务。我认为这就是当今人工智能和机器学习应用程序得到迅速应用的地方。如今,有很多初创公司在构建电信公司目前正在消费的特定服务。他们提出了很好的想法,电信公司的分销网络是放置这些类型服务的理想场所。很多服务需要大量的计算能力,所以我认为边缘采用的GPU将是一个令人关注的产品。