AI入驻数据中心:你的企业预留好位置了吗?

简介:

对AI应用程序来说,时机已经成熟。但在企业数据中心实施人工智能时会对网络、存储和计算基础设施造成障碍。

尽管人工智能的概念自50年代以来一直存在,但它在IT领域的主流应用程序刚刚开始出现。根据Gartner的研究,到2021年,深度学习和人工智能等工作量将成为数据中心设计和架构的重要因素。

AI应用程序将影响每一个垂直行业和工业领域,因此采取积极的措施来规划、构建和培育数据中心的深度学习(deep learning)和人工智能实践非常重要。

大多数组织还没有实施AI。在大多数情况下,超大规模公共云提供商(如Google和Amazon Web Services)都是早期采用者,而绝大多数终端用户都在起步阶段就举步维艰。

人工智能/数据中心

Gartner研究总监Chirag Dekate表示:“由于这是个持续变化的目标,很难初始化开发AI和深度学习环境的实践。这个想法是惊人的,但是当您着手开发和设计解决方案时,您就开始遇到问题了,而且这是很多最终用户当前所处的位置。”

来自存储的挑战

深度学习和AI应用程序需要大量的数据来训练、测试和验证神经网络算法,这可能为数据中心管理员带来存储挑战。

Dekate表示:“如果您的机器学习算法基于回归,您可以使用有限的数据集,但是对于更先进的高价值神经网络生态系统,您会逐渐遇到规模问题。传统的网络连接存储架构可以交付即时的结果,方便部署和开箱即用的效率,但它们也会在I/O扩展和延迟方面显示出问题。

部分初创公司正在尝试高带宽并行文件系统,以增加吞吐量并实现规模化,但这些还都只能算是外围方法,Dekate表示。

并行文件系统涉及从元数据服务器到存储目标的许多移动部件,必须进行优化、调整和调试以最高效率运行。他说:“它们[并行文件系统]是非常复杂的,需要经历严苛的考验。”

然而,大数据分析——另一项需要大量数据的计划——已经为许多IT组织提供了一个平台,能够重新调整存储策略。

供职于451 Research的研究经理Christian Perry表示:“当AI成为企业可部署的现实时,从存储的角度来看,由于大数据和分析的原因,容量方面已经解决了。物联网也被寄予期望在特定组织驱动大规模应用的规划,我认为基础设施已经具有处理大型存储需求的能力。”

来自网络的挑战

深度学习框架的有限性产生了规模方面的挑战——对于可扩展性的网络架构,性能明显超出单一计算节点。为了规模化以提供更高的效率,管理员必须升级和改进他们的网络,但大多数人还没有将此举当做他们的首要任务。

Dekate说:“如果您仔细观察深度学习算法,会发现它们的沟通密集度非常之高。尝试为这样一个聊天应用程序堆栈构建解决方案对于组织如何着手开始将是非常困难的。”

随着数据中心网络架构师为AI准备其基础架构,他们必须优先考虑可扩展性,这将需要高带宽、低延迟的网络和像InfiniBand或Omni-Path这样的创新型架构。

关键是为实现自动化而保证所有选项的开放性,Perry说。自动数据中心基础设施管理技术的市场正在快速成熟,这表明自动化在数据中心行业越来越被广泛地接受。

Perry说:“还有自动化功能已经具备应用条件,这将有助于为AI的引入奠定基础。”

来自计算方面的挑战

数据中心的计算端对AI应用程序的实施面临着异常严峻的挑战。基于CPU的环境可以处理绝大多数机器学习和AI工作负载,从随机森林回归(random forest regression)到集群。但当IT深入到深度学习能力之中,这需要遍历多个大型数据集并部署可扩展的神经网络算法,那么基于CPU的生态系统可能还不够。为了提供计算能力,IT部门必须集成如NVDIA GPU、Advanced Micro Devices GPU和Intel Xeon Phi等技术。

“您需要混合或异构架构,其核心处理器由专用加速器填充,为您的应用程序提供更大的计算密度和更高的吞吐量,”Dekate说。

实施GPU还使管理员能够优化数据中心基础架构以实现功率效率。当管理员将基于GPU的生态系统进行单一节点特别扩大时,它们对电源的需求将更加迫切。

Google等超大规模供应商已认识到这一需求;该公司负责AI业务的机构DeepMind将将其数据中心冷却所需的能源降低了40%。但是,在更广泛的市场中几乎所有的企业数据中心都缺乏Google具备的资源,将无法复制这一模式来解决效率问题。

对于具有传统生态系统的大多数企业来说,实施这些创新技术不仅复杂—同时价格昂贵。例如,搭载了最新Xeon Phi的芯片价格高达6,294美元—它是英特尔迄今为止最昂贵的芯片。而想要整合深度学习能力的IT团队不仅仅需要一个芯片,他们需要高密度的加速卡。这些高密度计算配置可用于超大规模环境,医疗保健机构、金融服务等。

Dekate说:“我们已经看到高密度产品的应用—大约2个CPU配上8个GPU的比例密度。这代表着在此环境中,某一服务器节点上某一服务器单元的成本可能高达15万美元。”

有办法减轻这些技术的高价格标签。许多组织使用公有云,在某些情况下,使用IBM Watson,在进行任何深层的内部承诺之前,测试AI应用程序的可靠性。

此外,服务器更新的时间范围远远超出传统的三年更新时间表,Perry说。现在,许多组织每五到七年更新服务器。因此,他们的IT预算也得到扩展,可以应用到能够满足内部所需的高价基础设施之上。

Perry说:“我们已经看到这在融合基础架构上的应用,而且超级融合基础架构也正在应用。没错,这都是非常昂贵的门槛,但转型是非常值得的。”


本文作者:Erica Mixon

来源:51CTO

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
6天前
|
机器学习/深度学习 人工智能 算法
【AI问爱答-双十一返场周】第二场企业办公视频
【AI问爱答-双十一返场周】探讨AI大模型时代对企业办公的影响。AI员工旨在辅助而非替代人类,通过深度学习、大规模训练数据和自我监督学习提升效率。视频介绍生成式智能工具如全妙系列,助力企业内容生产。关注AI问爱答,了解更多AI技术与应用。
|
24天前
|
机器学习/深度学习 人工智能 自动驾驶
企业内训|AI大模型在汽车行业的前沿应用研修-某汽车集团
本课程是TsingtaoAI为某汽车集团高级项目经理设计研发,课程全面系统地解析AI的发展历程、技术基础及其在汽车行业的深度应用。通过深入浅出的理论讲解、丰富的行业案例分析以及实战项目训练,学员将全面掌握机器学习、深度学习、NLP与CV等核心技术,了解自动驾驶、智能制造、车联网与智能营销等关键应用场景,洞悉AI技术对企业战略布局的深远影响。
173 97
|
11天前
|
存储 人工智能 自然语言处理
|
14天前
|
存储 人工智能 自然语言处理
AI Agent与SaaS工具协同发展的未来:企业智能化的全新范式
AI Agent以自主性和智能化为核心,适合复杂任务的动态执行;而SaaS工具则注重服务的完整性和易用性,适合标准化业务需求。
74 14
AI Agent与SaaS工具协同发展的未来:企业智能化的全新范式
|
1月前
|
机器学习/深度学习 人工智能 安全
CCF-CV企业交流会:打造大模型时代的可信AI,探索AI安全治理新路径
近日,由中国计算机学会计算机视觉专委会主办的《打造大模型时代的可信AI》论坛顺利举行。论坛邀请了来自上海交通大学、中国科学技术大学等机构的专家,从立法、监管、前沿研究等多角度探讨AI安全治理。合合信息等企业展示了图像篡改检测等技术,助力AI向善发展。
66 11
CCF-CV企业交流会:打造大模型时代的可信AI,探索AI安全治理新路径
|
18天前
|
人工智能 运维 监控
云卓越架构:企业稳定性架构体系和AI业务场景探秘
本次分享由阿里云智能集团公共云技术服务部上海零售技术服务高级经理路志华主讲,主题为“云卓越架构:企业稳定性架构体系和AI业务场景探秘”。内容涵盖四个部分:1) 稳定性架构设计,强调高可用、可扩展性、安全性和可维护性;2) 稳定性保障体系和应急体系的建立,确保快速响应和恢复;3) 重大活动时的稳定重宝策略,如大促或新业务上线;4) AI在企业中的应用场景,包括智能编码、知识库问答、创意广告生成等。通过这些内容,帮助企业在云计算环境中构建更加稳定和高效的架构,并探索AI技术带来的创新机会。
|
19天前
|
弹性计算 监控 安全
助力企业高效构建安全、可观测的云上数据中心
本次课程聚焦于助力企业高效构建安全、可观测的云上数据中心,涵盖三大方面:1) 数据中心网络面临的挑战,包括VPC、NAT网关和私网连接等产品的功能与挑战;2) 数据中心网络产品重磅发布,涉及安全设计建议、容灾能力提升及深度可观测能力的增强;3) 用户体验升级,通过VPC IPAM实现高效的网络地址管理和简化的产品体验。整体旨在为企业提供更安全、稳定、高效的云上解决方案。
|
21天前
|
存储 人工智能 物联网
工业公辅车间数智化节能头部企业,蘑菇物联选择 TDengine 升级 AI 云智控
在工业节能和智能化转型的浪潮中,蘑菇物联凭借其自研的灵知 AI 大模型走在行业前沿,为高能耗设备和公辅能源车间提供先进的 AI 解决方案。此次采访聚焦于蘑菇物联与 TDengine 的合作项目,通过 AI 云智控平台的建设,双方携手推动制造工厂的能源数智化管理,助力企业实现节能降碳。在本文中,我们将深入探讨蘑菇物联选择 TDengine 的原因、项目实施中的挑战与解决方案,以及合作视角下双方的未来愿景。
28 2
|
1月前
|
人工智能 Serverless API
尽享红利,Serverless构建企业AI应用方案与实践
本次课程由阿里云云原生架构师计缘分享,主题为“尽享红利,Serverless构建企业AI应用方案与实践”。课程分为四个部分:1) Serverless技术价值,介绍其发展趋势及优势;2) Serverless函数计算与AI的结合,探讨两者融合的应用场景;3) Serverless函数计算AIGC应用方案,展示具体的技术实现和客户案例;4) 业务初期如何降低使用门槛,提供新用户权益和免费资源。通过这些内容,帮助企业和开发者快速构建高效、低成本的AI应用。
74 12
|
26天前
|
人工智能 安全 搜索推荐
到2028年,30%的财富500强企业将使用仅支持AI的服务渠道
到2028年,30%的财富500强企业将使用仅支持AI的服务渠道