AI入驻数据中心:你的企业预留好位置了吗?

简介:

对AI应用程序来说,时机已经成熟。但在企业数据中心实施人工智能时会对网络、存储和计算基础设施造成障碍。

尽管人工智能的概念自50年代以来一直存在,但它在IT领域的主流应用程序刚刚开始出现。根据Gartner的研究,到2021年,深度学习和人工智能等工作量将成为数据中心设计和架构的重要因素。

AI应用程序将影响每一个垂直行业和工业领域,因此采取积极的措施来规划、构建和培育数据中心的深度学习(deep learning)和人工智能实践非常重要。

大多数组织还没有实施AI。在大多数情况下,超大规模公共云提供商(如Google和Amazon Web Services)都是早期采用者,而绝大多数终端用户都在起步阶段就举步维艰。

人工智能/数据中心

Gartner研究总监Chirag Dekate表示:“由于这是个持续变化的目标,很难初始化开发AI和深度学习环境的实践。这个想法是惊人的,但是当您着手开发和设计解决方案时,您就开始遇到问题了,而且这是很多最终用户当前所处的位置。”

来自存储的挑战

深度学习和AI应用程序需要大量的数据来训练、测试和验证神经网络算法,这可能为数据中心管理员带来存储挑战。

Dekate表示:“如果您的机器学习算法基于回归,您可以使用有限的数据集,但是对于更先进的高价值神经网络生态系统,您会逐渐遇到规模问题。传统的网络连接存储架构可以交付即时的结果,方便部署和开箱即用的效率,但它们也会在I/O扩展和延迟方面显示出问题。

部分初创公司正在尝试高带宽并行文件系统,以增加吞吐量并实现规模化,但这些还都只能算是外围方法,Dekate表示。

并行文件系统涉及从元数据服务器到存储目标的许多移动部件,必须进行优化、调整和调试以最高效率运行。他说:“它们[并行文件系统]是非常复杂的,需要经历严苛的考验。”

然而,大数据分析——另一项需要大量数据的计划——已经为许多IT组织提供了一个平台,能够重新调整存储策略。

供职于451 Research的研究经理Christian Perry表示:“当AI成为企业可部署的现实时,从存储的角度来看,由于大数据和分析的原因,容量方面已经解决了。物联网也被寄予期望在特定组织驱动大规模应用的规划,我认为基础设施已经具有处理大型存储需求的能力。”

来自网络的挑战

深度学习框架的有限性产生了规模方面的挑战——对于可扩展性的网络架构,性能明显超出单一计算节点。为了规模化以提供更高的效率,管理员必须升级和改进他们的网络,但大多数人还没有将此举当做他们的首要任务。

Dekate说:“如果您仔细观察深度学习算法,会发现它们的沟通密集度非常之高。尝试为这样一个聊天应用程序堆栈构建解决方案对于组织如何着手开始将是非常困难的。”

随着数据中心网络架构师为AI准备其基础架构,他们必须优先考虑可扩展性,这将需要高带宽、低延迟的网络和像InfiniBand或Omni-Path这样的创新型架构。

关键是为实现自动化而保证所有选项的开放性,Perry说。自动数据中心基础设施管理技术的市场正在快速成熟,这表明自动化在数据中心行业越来越被广泛地接受。

Perry说:“还有自动化功能已经具备应用条件,这将有助于为AI的引入奠定基础。”

来自计算方面的挑战

数据中心的计算端对AI应用程序的实施面临着异常严峻的挑战。基于CPU的环境可以处理绝大多数机器学习和AI工作负载,从随机森林回归(random forest regression)到集群。但当IT深入到深度学习能力之中,这需要遍历多个大型数据集并部署可扩展的神经网络算法,那么基于CPU的生态系统可能还不够。为了提供计算能力,IT部门必须集成如NVDIA GPU、Advanced Micro Devices GPU和Intel Xeon Phi等技术。

“您需要混合或异构架构,其核心处理器由专用加速器填充,为您的应用程序提供更大的计算密度和更高的吞吐量,”Dekate说。

实施GPU还使管理员能够优化数据中心基础架构以实现功率效率。当管理员将基于GPU的生态系统进行单一节点特别扩大时,它们对电源的需求将更加迫切。

Google等超大规模供应商已认识到这一需求;该公司负责AI业务的机构DeepMind将将其数据中心冷却所需的能源降低了40%。但是,在更广泛的市场中几乎所有的企业数据中心都缺乏Google具备的资源,将无法复制这一模式来解决效率问题。

对于具有传统生态系统的大多数企业来说,实施这些创新技术不仅复杂—同时价格昂贵。例如,搭载了最新Xeon Phi的芯片价格高达6,294美元—它是英特尔迄今为止最昂贵的芯片。而想要整合深度学习能力的IT团队不仅仅需要一个芯片,他们需要高密度的加速卡。这些高密度计算配置可用于超大规模环境,医疗保健机构、金融服务等。

Dekate说:“我们已经看到高密度产品的应用—大约2个CPU配上8个GPU的比例密度。这代表着在此环境中,某一服务器节点上某一服务器单元的成本可能高达15万美元。”

有办法减轻这些技术的高价格标签。许多组织使用公有云,在某些情况下,使用IBM Watson,在进行任何深层的内部承诺之前,测试AI应用程序的可靠性。

此外,服务器更新的时间范围远远超出传统的三年更新时间表,Perry说。现在,许多组织每五到七年更新服务器。因此,他们的IT预算也得到扩展,可以应用到能够满足内部所需的高价基础设施之上。

Perry说:“我们已经看到这在融合基础架构上的应用,而且超级融合基础架构也正在应用。没错,这都是非常昂贵的门槛,但转型是非常值得的。”


本文作者:Erica Mixon

来源:51CTO

相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
相关文章
|
6天前
|
人工智能 自然语言处理 搜索推荐
AI与GIS工具引领企业变革
科技赋能企业转型:清华团队突破固态电池技术,AIGEO融合AI与GIS助力精准获客,降本增效。覆盖美妆、教育、金融等多领域,提升流量与转化率,推动数字化升级。(238字)
168 106
|
18天前
|
人工智能 安全 API
HiMarket 正式开源,为企业落地开箱即用的 AI 开放平台
我们发起 HiMarket 的初心:帮助用户从 80% 开始构建 AI 开放平台。
118 14
|
12天前
|
人工智能 自然语言处理 搜索推荐
AI营销新宠助力企业突围
AI浪潮下,企业如何借力新技术突围?OpenAI与立讯合作预示消费级AI设备爆发,AIGEO市场规模2024年将超180亿元。AI语义预检内容提升曝光效率,精准触达用户。63%网民用AI获取信息,AI搜索流量占比达42%。政策支持叠加技术进步,内容营销迎来智能变革。企业需重构策略,把握AI红利。欢迎交流咨询,共探增长新路径。
|
16天前
|
数据采集 存储 人工智能
拆解AI-Agentforce企业级智能体中台:如何让企业AI落地从“噱头”到“实效”
在GDMS峰会上,迈富时集团尹思源指出41.3%中国企业尚未布局AI Agent,已应用者亦陷“Demo化、孤岛化”困局。其发布的AI-Agentforce智能体中台,以“冰山模型”重构架构,打通认知、价值、能力三重鸿沟,覆盖内容、获客、销售、陪练、分析五大场景,助力企业实现AI从“工具”到“数字员工”的全链路协同升级。
|
2月前
|
机器学习/深度学习 人工智能 监控
大型动作模型LAM:让企业重复任务实现80%效率提升的AI技术架构与实现方案
大型动作模型(LAMs)作为人工智能新架构,融合神经网络与符号逻辑,实现企业重复任务的自动化处理。通过神经符号集成、动作执行管道、模式学习、任务分解等核心技术,系统可高效解析用户意图并执行复杂操作,显著提升企业运营效率并降低人工成本。其自适应学习能力与上下文感知机制,使自动化流程更智能、灵活,为企业数字化转型提供坚实支撑。
176 0
大型动作模型LAM:让企业重复任务实现80%效率提升的AI技术架构与实现方案
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
|
2月前
|
人工智能 自然语言处理 前端开发
智能体三强争霸:Coze、Dify、FastGPT谁是企业AI化的最优解?
2025年AI智能体技术爆发,企业面临如何高效实现AI化的挑战。Coze、Dify、FastGPT作为三大热门平台,各具特色:Dify主打开源与全球化,Coze专注对话式AI,FastGPT深耕企业知识库。本文从技术架构、功能、部署、生态等维度深入对比,帮助企业找到最适配的AI引擎,推动智能化转型。
|
13天前
|
SQL 人工智能 Linux
SQL Server 2025 RC1 发布 - 从本地到云端的 AI 就绪企业数据库
SQL Server 2025 RC1 发布 - 从本地到云端的 AI 就绪企业数据库
156 5
SQL Server 2025 RC1 发布 - 从本地到云端的 AI 就绪企业数据库
|
8天前
|
机器学习/深度学习 人工智能 数据安全/隐私保护
阿里云 Qwen3 全栈 AI 模型:技术解析、开发者实操指南与 100 万企业落地案例
阿里云发布Qwen3全栈AI体系,推出Qwen3-Max、Qwen3-Next等七大模型,性能全球领先,开源生态超6亿次下载。支持百万级上下文、多模态理解,训练成本降90%,助力企业高效落地AI。覆盖制造、金融、创作等场景,提供无代码与代码级开发工具,共建超级AI云生态。
159 6
|
18天前
|
人工智能 Serverless API
函数计算的云上计费演进:从请求驱动到价值驱动,助力企业走向 AI 时代
函数计算计费方式历经三阶段演进:从按请求计费,到按活跃时长毫秒级计费,再到按实际资源消耗分层计费。背后是资源调度、安全隔离与开发体验的持续优化。尤其在AI时代,低负载减免、会话亲和等技术让计费更贴近真实价值,推动Serverless向“按需使用、按量付费”终极目标迈进。

热门文章

最新文章