对AI应用程序来说,时机已经成熟。但在企业数据中心实施人工智能时会对网络、存储和计算基础设施造成障碍。
尽管人工智能的概念自50年代以来一直存在,但它在IT领域的主流应用程序刚刚开始出现。根据Gartner的研究,到2021年,深度学习和人工智能等工作量将成为数据中心设计和架构的重要因素。
AI应用程序将影响每一个垂直行业和工业领域,因此采取积极的措施来规划、构建和培育数据中心的深度学习(deep learning)和人工智能实践非常重要。
大多数组织还没有实施AI。在大多数情况下,超大规模公共云提供商(如Google和Amazon Web Services)都是早期采用者,而绝大多数终端用户都在起步阶段就举步维艰。
Gartner研究总监Chirag Dekate表示:“由于这是个持续变化的目标,很难初始化开发AI和深度学习环境的实践。这个想法是惊人的,但是当您着手开发和设计解决方案时,您就开始遇到问题了,而且这是很多最终用户当前所处的位置。”
来自存储的挑战
深度学习和AI应用程序需要大量的数据来训练、测试和验证神经网络算法,这可能为数据中心管理员带来存储挑战。
Dekate表示:“如果您的机器学习算法基于回归,您可以使用有限的数据集,但是对于更先进的高价值神经网络生态系统,您会逐渐遇到规模问题。传统的网络连接存储架构可以交付即时的结果,方便部署和开箱即用的效率,但它们也会在I/O扩展和延迟方面显示出问题。
部分初创公司正在尝试高带宽并行文件系统,以增加吞吐量并实现规模化,但这些还都只能算是外围方法,Dekate表示。
并行文件系统涉及从元数据服务器到存储目标的许多移动部件,必须进行优化、调整和调试以最高效率运行。他说:“它们[并行文件系统]是非常复杂的,需要经历严苛的考验。”
然而,大数据分析——另一项需要大量数据的计划——已经为许多IT组织提供了一个平台,能够重新调整存储策略。
供职于451 Research的研究经理Christian Perry表示:“当AI成为企业可部署的现实时,从存储的角度来看,由于大数据和分析的原因,容量方面已经解决了。物联网也被寄予期望在特定组织驱动大规模应用的规划,我认为基础设施已经具有处理大型存储需求的能力。”
来自网络的挑战
深度学习框架的有限性产生了规模方面的挑战——对于可扩展性的网络架构,性能明显超出单一计算节点。为了规模化以提供更高的效率,管理员必须升级和改进他们的网络,但大多数人还没有将此举当做他们的首要任务。
Dekate说:“如果您仔细观察深度学习算法,会发现它们的沟通密集度非常之高。尝试为这样一个聊天应用程序堆栈构建解决方案对于组织如何着手开始将是非常困难的。”
随着数据中心网络架构师为AI准备其基础架构,他们必须优先考虑可扩展性,这将需要高带宽、低延迟的网络和像InfiniBand或Omni-Path这样的创新型架构。
关键是为实现自动化而保证所有选项的开放性,Perry说。自动数据中心基础设施管理技术的市场正在快速成熟,这表明自动化在数据中心行业越来越被广泛地接受。
Perry说:“还有自动化功能已经具备应用条件,这将有助于为AI的引入奠定基础。”
来自计算方面的挑战
数据中心的计算端对AI应用程序的实施面临着异常严峻的挑战。基于CPU的环境可以处理绝大多数机器学习和AI工作负载,从随机森林回归(random forest regression)到集群。但当IT深入到深度学习能力之中,这需要遍历多个大型数据集并部署可扩展的神经网络算法,那么基于CPU的生态系统可能还不够。为了提供计算能力,IT部门必须集成如NVDIA GPU、Advanced Micro Devices GPU和Intel Xeon Phi等技术。
“您需要混合或异构架构,其核心处理器由专用加速器填充,为您的应用程序提供更大的计算密度和更高的吞吐量,”Dekate说。
实施GPU还使管理员能够优化数据中心基础架构以实现功率效率。当管理员将基于GPU的生态系统进行单一节点特别扩大时,它们对电源的需求将更加迫切。
Google等超大规模供应商已认识到这一需求;该公司负责AI业务的机构DeepMind将将其数据中心冷却所需的能源降低了40%。但是,在更广泛的市场中几乎所有的企业数据中心都缺乏Google具备的资源,将无法复制这一模式来解决效率问题。
对于具有传统生态系统的大多数企业来说,实施这些创新技术不仅复杂—同时价格昂贵。例如,搭载了最新Xeon Phi的芯片价格高达6,294美元—它是英特尔迄今为止最昂贵的芯片。而想要整合深度学习能力的IT团队不仅仅需要一个芯片,他们需要高密度的加速卡。这些高密度计算配置可用于超大规模环境,医疗保健机构、金融服务等。
Dekate说:“我们已经看到高密度产品的应用—大约2个CPU配上8个GPU的比例密度。这代表着在此环境中,某一服务器节点上某一服务器单元的成本可能高达15万美元。”
有办法减轻这些技术的高价格标签。许多组织使用公有云,在某些情况下,使用IBM Watson,在进行任何深层的内部承诺之前,测试AI应用程序的可靠性。
此外,服务器更新的时间范围远远超出传统的三年更新时间表,Perry说。现在,许多组织每五到七年更新服务器。因此,他们的IT预算也得到扩展,可以应用到能够满足内部所需的高价基础设施之上。
Perry说:“我们已经看到这在融合基础架构上的应用,而且超级融合基础架构也正在应用。没错,这都是非常昂贵的门槛,但转型是非常值得的。”
本文作者:Erica Mixon
来源:51CTO