AI入驻数据中心:你的企业预留好位置了吗?

简介:

对AI应用程序来说,时机已经成熟。但在企业数据中心实施人工智能时会对网络、存储和计算基础设施造成障碍。

尽管人工智能的概念自50年代以来一直存在,但它在IT领域的主流应用程序刚刚开始出现。根据Gartner的研究,到2021年,深度学习和人工智能等工作量将成为数据中心设计和架构的重要因素。

AI应用程序将影响每一个垂直行业和工业领域,因此采取积极的措施来规划、构建和培育数据中心的深度学习(deep learning)和人工智能实践非常重要。

大多数组织还没有实施AI。在大多数情况下,超大规模公共云提供商(如Google和Amazon Web Services)都是早期采用者,而绝大多数终端用户都在起步阶段就举步维艰。

人工智能/数据中心

Gartner研究总监Chirag Dekate表示:“由于这是个持续变化的目标,很难初始化开发AI和深度学习环境的实践。这个想法是惊人的,但是当您着手开发和设计解决方案时,您就开始遇到问题了,而且这是很多最终用户当前所处的位置。”

来自存储的挑战

深度学习和AI应用程序需要大量的数据来训练、测试和验证神经网络算法,这可能为数据中心管理员带来存储挑战。

Dekate表示:“如果您的机器学习算法基于回归,您可以使用有限的数据集,但是对于更先进的高价值神经网络生态系统,您会逐渐遇到规模问题。传统的网络连接存储架构可以交付即时的结果,方便部署和开箱即用的效率,但它们也会在I/O扩展和延迟方面显示出问题。

部分初创公司正在尝试高带宽并行文件系统,以增加吞吐量并实现规模化,但这些还都只能算是外围方法,Dekate表示。

并行文件系统涉及从元数据服务器到存储目标的许多移动部件,必须进行优化、调整和调试以最高效率运行。他说:“它们[并行文件系统]是非常复杂的,需要经历严苛的考验。”

然而,大数据分析——另一项需要大量数据的计划——已经为许多IT组织提供了一个平台,能够重新调整存储策略。

供职于451 Research的研究经理Christian Perry表示:“当AI成为企业可部署的现实时,从存储的角度来看,由于大数据和分析的原因,容量方面已经解决了。物联网也被寄予期望在特定组织驱动大规模应用的规划,我认为基础设施已经具有处理大型存储需求的能力。”

来自网络的挑战

深度学习框架的有限性产生了规模方面的挑战——对于可扩展性的网络架构,性能明显超出单一计算节点。为了规模化以提供更高的效率,管理员必须升级和改进他们的网络,但大多数人还没有将此举当做他们的首要任务。

Dekate说:“如果您仔细观察深度学习算法,会发现它们的沟通密集度非常之高。尝试为这样一个聊天应用程序堆栈构建解决方案对于组织如何着手开始将是非常困难的。”

随着数据中心网络架构师为AI准备其基础架构,他们必须优先考虑可扩展性,这将需要高带宽、低延迟的网络和像InfiniBand或Omni-Path这样的创新型架构。

关键是为实现自动化而保证所有选项的开放性,Perry说。自动数据中心基础设施管理技术的市场正在快速成熟,这表明自动化在数据中心行业越来越被广泛地接受。

Perry说:“还有自动化功能已经具备应用条件,这将有助于为AI的引入奠定基础。”

来自计算方面的挑战

数据中心的计算端对AI应用程序的实施面临着异常严峻的挑战。基于CPU的环境可以处理绝大多数机器学习和AI工作负载,从随机森林回归(random forest regression)到集群。但当IT深入到深度学习能力之中,这需要遍历多个大型数据集并部署可扩展的神经网络算法,那么基于CPU的生态系统可能还不够。为了提供计算能力,IT部门必须集成如NVDIA GPU、Advanced Micro Devices GPU和Intel Xeon Phi等技术。

“您需要混合或异构架构,其核心处理器由专用加速器填充,为您的应用程序提供更大的计算密度和更高的吞吐量,”Dekate说。

实施GPU还使管理员能够优化数据中心基础架构以实现功率效率。当管理员将基于GPU的生态系统进行单一节点特别扩大时,它们对电源的需求将更加迫切。

Google等超大规模供应商已认识到这一需求;该公司负责AI业务的机构DeepMind将将其数据中心冷却所需的能源降低了40%。但是,在更广泛的市场中几乎所有的企业数据中心都缺乏Google具备的资源,将无法复制这一模式来解决效率问题。

对于具有传统生态系统的大多数企业来说,实施这些创新技术不仅复杂—同时价格昂贵。例如,搭载了最新Xeon Phi的芯片价格高达6,294美元—它是英特尔迄今为止最昂贵的芯片。而想要整合深度学习能力的IT团队不仅仅需要一个芯片,他们需要高密度的加速卡。这些高密度计算配置可用于超大规模环境,医疗保健机构、金融服务等。

Dekate说:“我们已经看到高密度产品的应用—大约2个CPU配上8个GPU的比例密度。这代表着在此环境中,某一服务器节点上某一服务器单元的成本可能高达15万美元。”

有办法减轻这些技术的高价格标签。许多组织使用公有云,在某些情况下,使用IBM Watson,在进行任何深层的内部承诺之前,测试AI应用程序的可靠性。

此外,服务器更新的时间范围远远超出传统的三年更新时间表,Perry说。现在,许多组织每五到七年更新服务器。因此,他们的IT预算也得到扩展,可以应用到能够满足内部所需的高价基础设施之上。

Perry说:“我们已经看到这在融合基础架构上的应用,而且超级融合基础架构也正在应用。没错,这都是非常昂贵的门槛,但转型是非常值得的。”


本文作者:Erica Mixon

来源:51CTO

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
2月前
|
存储 人工智能 搜索推荐
解锁AI新境界:LangChain+RAG实战秘籍,让你的企业决策更智能,引领商业未来新潮流!
【10月更文挑战第4天】本文通过详细的实战演练,指导读者如何在LangChain框架中集成检索增强生成(RAG)技术,以提升大型语言模型的准确性与可靠性。RAG通过整合外部知识源,已在生成式AI领域展现出巨大潜力。文中提供了从数据加载到创建检索器的完整步骤,并探讨了RAG在企业问答系统、决策支持及客户服务中的应用。通过构建知识库、选择合适的嵌入模型及持续优化系统,企业可以充分利用现有数据,实现高效的商业落地。
91 6
|
3月前
|
人工智能 自然语言处理 Serverless
阿里云函数计算 x NVIDIA 加速企业 AI 应用落地
阿里云函数计算与 NVIDIA TensorRT/TensorRT-LLM 展开合作,通过结合阿里云的无缝计算体验和 NVIDIA 的高性能推理库,开发者能够以更低的成本、更高的效率完成复杂的 AI 任务,加速技术落地和应用创新。
158 13
|
2月前
|
人工智能 自然语言处理 机器人
对话阿里云 CIO 蒋林泉:AI 时代,企业如何做好智能化系统建设?
10 月 18 日, InfoQ《C 位面对面》栏目邀请到阿里云 CIO 及 aliyun.com 负责人蒋林泉(花名:雁杨),就 AI 时代企业 CIO 的角色转变、企业智能化转型路径、AI 落地实践与人才培养等主题展开了讨论。
1044 67
对话阿里云 CIO 蒋林泉:AI 时代,企业如何做好智能化系统建设?
|
25天前
|
人工智能 数据挖掘 数据库
拥抱Data+AI|破解电商7大挑战,DMS+AnalyticDB助力企业智能决策
本文为数据库「拥抱Data+AI」系列连载第1篇,该系列是阿里云瑶池数据库面向各行业Data+AI应用场景,基于真实客户案例&最佳实践,展示Data+AI行业解决方案的连载文章。本篇内容针对电商行业痛点,将深入探讨如何利用数据与AI技术以及数据分析方法论,为电商行业注入新的活力与效能。
拥抱Data+AI|破解电商7大挑战,DMS+AnalyticDB助力企业智能决策
|
1月前
|
存储 人工智能 数据可视化
高效率,低成本!且看阿里云AI大模型如何帮助企业提升客服质量和销售转化率
在数字化时代,企业面临海量客户对话数据处理的挑战。阿里云推出的“AI大模型助力客户对话分析”解决方案,通过先进的AI技术和智能化分析,帮助企业精准识别客户意图、发现服务质量问题,并生成详尽的分析报告和可视化数据。该方案采用按需付费模式,有效降低企业运营成本,提升客服质量和销售转化率。
高效率,低成本!且看阿里云AI大模型如何帮助企业提升客服质量和销售转化率
|
20天前
|
人工智能 自然语言处理 算法
企业内训|AI/大模型/智能体的测评/评估技术-某电信运营商互联网研发中心
本课程是TsingtaoAI专为某电信运营商的互联网研发中心的AI算法工程师设计,已于近日在广州对客户团队完成交付。课程聚焦AI算法工程师在AI、大模型和智能体的测评/评估技术中的关键能力建设,深入探讨如何基于当前先进的AI、大模型与智能体技术,构建符合实际场景需求的科学测评体系。课程内容涵盖大模型及智能体的基础理论、测评集构建、评分标准、自动化与人工测评方法,以及特定垂直场景下的测评实战等方面。
74 4
|
27天前
|
数据采集 人工智能 搜索推荐
|
27天前
|
数据采集 人工智能 搜索推荐
大咖说|Data+AI:企业智能化转型的核心驱动力
在数字化浪潮的推动下,企业正面临前所未有的挑战与机遇。数据与人工智能的结合,形成了强大的Data+AI力量,尤其在近期人工智能迅速发展的背景下,这一力量正在加速重塑企业的运营模式、竞争策略和市场前景,成为适应变化、提升竞争力、推动创新的核心驱动力。本文将讨论企业采用Data+AI平台的必要性及其在企业智能化转型中的作用。
132 0
大咖说|Data+AI:企业智能化转型的核心驱动力
|
1月前
|
人工智能 分布式计算 数据可视化
大模型私有化部署全攻略:硬件需求、数据隐私、可解释性与维护成本挑战及解决方案详解,附示例代码助你轻松实现企业内部AI应用
【10月更文挑战第23天】随着人工智能技术的发展,企业越来越关注大模型的私有化部署。本文详细探讨了硬件资源需求、数据隐私保护、模型可解释性、模型更新和维护等方面的挑战及解决方案,并提供了示例代码,帮助企业高效、安全地实现大模型的内部部署。
69 1
|
1月前
|
人工智能 分布式计算 数据可视化
大模型私有化部署全攻略:硬件需求、数据隐私、可解释性与维护成本挑战及解决方案详解,附示例代码助你轻松实现企业内部AI应用
【10月更文挑战第23天】随着人工智能技术的发展,大模型在各领域的应用日益广泛。然而,将其私有化部署到企业内部面临诸多挑战,如硬件资源需求高、数据隐私保护、模型可解释性差、更新维护成本高等。本文探讨了这些挑战,并提出了优化硬件配置、数据加密、可视化工具、自动化更新机制等解决方案,帮助企业顺利实现大模型的私有化部署。
64 1