可省近90%服务器,反欺诈效率却大增,PayPal打破「AI内存墙」的方案为何如此划算?

简介: 可省近90%服务器,反欺诈效率却大增,PayPal打破「AI内存墙」的方案为何如此划算?

内存不够只能割肉买 DRAM?英特尔:很多时候大可不必。

人们常说,新一代的人工智能浪潮是由数据、算法和算力来驱动的。最近几年模型参数的爆炸式增长更是让大家看到了算力的基础性作用。

为了配合企业用户对于算力的强烈需求,当前的很多 AI 硬件(比如 GPU)都铆足了劲儿地提高峰值算力,但这种提升通常以简化或者删除其他部分(例如内存的分层架构)为代价[1],这就造成 AI 硬件的内存发展速度远远落后于算力的增长速度

SOTA Transformer 模型参数量(红点)和 AI 硬件内存大小(绿点)增长趋势对比。图源:https://github.com/amirgholami/ai_and_memory_wall/blob/main/imgs/pdfs/model_size_scaling.pdf

因此,在遇到大模型的训练和推理时,用户总是感觉显存或内存不够用,这就是所谓的「内存墙」问题。

为了打破内存墙,人们想了很多种办法,比如前段时间大火的 Colossal-AI 项目就是一个适用于训练阶段的方法。在这个项目中,开发者高效利用了「GPU+CPU 异构内存」的策略,使得一块消费级显卡就能训练 180 亿参数的大模型。

而在推理阶段,模型对硬件的主要需求就是加载模型的全部参数量,所以对算力要求相对低一些。一般对于计算密集型模型,我们可以采用 INT8 量化或者模型并行等策略,用多张 GPU 及其显存资源来推理单个模型。但实际上,还有很多工业界应用场景的机器学习或深度学习模型可以使用 CPU 与内存来做推理,例如推荐系统、点击预估等。

对于这些模型,我们除了内存容量上的诉求外,可能还需要考量异常情况下的数据恢复时间、硬件成本、维护成本等问题,这也对破解内存墙方案的选择提出了新的要求。

工业界的推理拦路虎:内存墙

在工业场景下,海量数据、高维模型确实能带来更好的效果,但这些数据的高维、稀疏特征又为计算和存储带来了很大的挑战。毕竟像推荐系统这样的模型,隐藏层大小可能就是数百万的量级,总参数量甚至能达到十万亿的量级,是 GPT-3 的百倍大小,所以其用户往往需要特别强大的内存支持系统才能实现更好的在线推理能力。

既然内存不够,那岂不是直接堆内存条(如 DRAM)就够了?这从原理上是可行的,但一方面 DRAM 内存的价格不便宜啊,这类模型需要的内存又不是几百 GB,而是动不动就冲上数十 TB,而单条 DRAM 内存一般都只有几十 GB,很少有超过 128GB 的。所以,整体算一下,不论是成本,还是在容量扩展上的能力,这一方案都不太容易被大家接受。

此外,DRAM 内存还有一个问题,即数据是易失的,或者说:一断电就丢数据。有时候模型重启或者排除故障的时候,只能重新将权重从更慢的存储设备,如 SSD 或机械硬盘中加载到内存里,非常耽误时间,这对于在线推理业务来说是很难容忍的。

打破推理内存墙,不用 DRAM 用什么?

那么,除了添购 DRAM 这个不太划算的选择外,提供在线推理服务或使用这类应用的企业要打破内存墙,还有其他选择吗?

如果仔细比较一下不同存储层级的容量和延迟数据,我们可以发现,DRAM 内存和固态盘 / 硬盘存储之间其实存在很大的差距。如果能开发一种全新的存储部件或设备来填补这个缺口,那内存墙问题可能就会得到缓解。

这就是英特尔® 傲腾™ 持久内存(Intel® Optane Persistent Memory, 简称 PMem)诞生的背景。其独有的傲腾存储介质与先进的内存控制器和其它软硬件技术相结合,使其在性能上接近 DRAM 内存,在容量上又能有数倍的提升(单条容量可达 512GB),用在基于第三代英特尔® 至强® 可扩展处理器的双路平台上时,理论上可提供最高达 12TB 的内存总容量(4TB DRAM+8TB 持久内存),相比之下,基于纯 DRAM 的方案不但在容量扩展能力上远远不及,在成本上也让人难以承受。

此外,傲腾™ 持久内存还有两个重要特性:可按字节寻址和数据持久性,分别汇集了内存与存储的优点。传统存储需要按块进行读写寻址,就如同去图书馆借书时,必须要把放置有目标书籍的整个书架上的书都背回家再做分拣,而内存按字节寻址则相当于能够精准定位目标书籍的位置并仅将其借出。  

傲腾 持久内存在存储层级中的位置及作用。 

用书的存放和查找做例子,来理解不同存储层级的特点。

数据持久性则补全了 DRAM 内存的先天不足,即可在断电后依然能保留数据,这就让大体量的内存数据库在计算系统出现计划内或计划外停机时,恢复数据及服务的速度大大加快,毕竟中间节省了从固态盘或硬盘上将数百 GB,甚至是 TB 级数据读回内存的耗时。

PayPal 的实践,证明持久内存很划算!

光练不说傻把式,光说不练假把式,傲腾持久内存能不能帮助用户打破 AI 内存墙,我们还是要眼见为实。

以全球知名的在线支付服务商 PayPal 为例。和其他金融类服务企业一样,PayPal 也难逃欺诈的挑战——即便在这方面的应对水平要高于业界的平均水平,每年损失仍会超过 10 亿美元。因此 PayPal 对反欺诈格外上心,不但为此早早构建了具备强大反欺诈预防模型的实时决策系统,为了实时识别新出现的欺诈模式,PayPal 还在不断强化这个系统在处理和分析相关数据时的效率。

图源:PayPal Newsroom

对于本就承担着上百 PB 数据处理任务的 PayPal IT 基础设施来说,反欺诈决策平台数据量的增长和数据处理和分析效率的提升可是一个严峻的挑战。虽然它从 2015 年就导入了 Aerospike 的数据库技术,将主索引数据存入内存来实现更好的实时性,但随着主索引数据规模的不断扩大,节点中的内存容量很容易耗尽,进而就会影响数据读写和处理的实时性。此时,若要采购新的节点又将耗费高昂的成本。注意,这里的成本不止包含硬件成本,还有随之而来的管理人员成本和功耗成本。

所以 PayPal 更倾向于能够提高单位节点存储密度的方案。

综合这些诉求,PayPal 选择了导入英特尔的傲腾持久内存,而这里也有另一个先决条件,就是 Aerospike 正好是这款创新硬件发布后第一波支持它的数据库厂商之一。

借助 Aerospike 数据库的混合内存架构( HMA),PayPal 可将主索引转存到傲腾持久内存中,而非过去的 DRAM 中。这么做的好处非常明显,因为傲腾持久内存的单条容量远高于 DRAM,且每 GB 成本也显著低于 DRAM,这就可以帮助 PayPal 将每节点的总存储空间提高为原来的 4 倍(从 3.2 TB 到 12 TB),因此 PayPal 只需使用更小的集群就可以满足业务所需的高性能,从而让服务器数量减少约 50%,每集群的成本降低约 30% 。

将主索引存储在傲腾持久内存中还有一个额外的好处,也就是我们前面提到的数据持久性。这使得 Aerospike 完成索引重建的时间从 59 分钟缩短至 4 分钟,满足了 PayPal 对较长运行时间和更高可靠性的要求。据悉,英特尔和 Aerospike 之间多年的合作还成就了一系列更深层次的优化,包括在傲腾持久内存中存储更多数据(不仅仅是索引)。

在采用傲腾持久内存加持的 Aerospike 实时数据平台后,PayPal 以其 2015 年的欺诈数据量和此前使用的平台为基准做了一个评估,它发现新方案可以将其欺诈计算的服务级别协议 (SLA) 遵守率从 98.5% 提升到 99.95%,漏查的欺诈交易量降到约为原来的 1/30。同时,与先前的基础设施相比,使用的服务器总数量可以减少近 90%(从 1024 台减少到 120 台),相关的硬件占用空间可减到约为原来的 1/8,吞吐量可增至原来的 5 倍(每秒事务处理量从 20 万提升到 100 万),硬件成本下降为原来的约 1/3( 预计硬件成本从 1250 万美元省至 350 万美元)。

需要指出的是,其实在 PayPal 的 IT 基础设施中,傲腾持久内存并不是一个孤立的部件,与它紧密配合且内置了 AI 加速能力(英特尔® 深度学习加速技术)的第二代英特尔® 至强® 可扩展处理器也是这一解决方案的灵魂所在。相信如果把它换成 AI 加速能力以及内存子系统带宽和性能表现更优的第三代英特尔® 至强® 可扩展处理器,这种打破内存墙的效果将更加明显。

AlphaFold2 端到端高通量优化

值得一提的是,在 AI for Science 领域,至强® 可扩展处理器 + 傲腾持久内存的组合所带来的突破内存墙实践也开始大放异彩。

以这几年大火的 AlphaFold2 为例。作为 AI for Science 领域的著名大模型,AlphaFold2 的落地部署在算力和存储方面都面临着严峻的挑战,这也给内置高位宽优势(AVX-512 等技术)的第三代英特尔® 至强® 可扩展处理器和大肚量的傲腾持久内存提供了尽情发挥的空间。

图源:www.exxactcorp.com

据英特尔相关技术专家透露的信息,他们正在英特尔这套计算 + 存储的创新产品组合上优化 AlphaFold2。一方面,在模型推理阶段,他们通过对注意力模块(attention unit)进行大张量切分(tensor slicing),以及使用英特尔® oneAPI 进行算子融合等优化方法,提升了算法的计算效率和 CPU 利用率,加快了并行推理速度,并缓解了算法执行中各个环节面临的内存瓶颈等问题。

另一方面,他们通过使用傲腾持久内存,为 AlphaFold 2 实现了 TB 级内存的战略级支持,轻松解决了多实例并行执行时内存峰值叠加的内存瓶颈。这个瓶颈有多大?据英特尔专家介绍:在输入长度为 765aa 的条件下,64 个实例并行执行时,内存容量的需求就会突破 2TB。在这种情形下,对广大用户来说,使用傲腾™ 持久内存是一个可行且可负担的方案。

除了傲腾™ 持久内存,还有哪些方案可以打破内存墙?

虽然傲腾持久内存的出现为一些应用场景提供了打破内存墙的可行路径,但截至目前,硬件领域还没有出现一个「一招鲜吃遍天」的内存墙解决方案,不过其他一些技术路径齐头并进的势头,还是让我们看到了解决这一问题的希望。讨论热度较高的解决方案包括在即将呈爆发式成长的异构系统中实现统一和池化的内存资源(把不同运算单元匹配的 HBM、显存和系统内存集中管理和分配),以及前瞻性的存算一体架构等。

在异构系统中打造池化的内存资源是近年来针对算力和存储间瓶颈问题的比较热的一个创新方向。为了实现 CPU 与 GPU、FPGA 等各种专用加速芯片的高速互联,英特尔早在 2019 年就牵头成立了名为 CXL(Compute Express Link)的标准组织。对于存储来说,CXL 将提供新的内存接口,与原来的 DDR 相比,它具有更高的可扩展性,更高的带宽,支持包括傲腾™ 产品在内的各种存储方案,而且它的架构设计不局限于单个系统,而是可以在多机之间进行连接,实现多机共享。大内存技术方案的代表性企业 MemVerge 的创始人兼 CEO 范承工评价说,CXL 是一个改变游戏规则的新技术,它可以实现内存和计算的相对独立,有望实现多机之间的内存池化共享以及真正的可组合基础设施,可以动态地为系统添加计算、内存、存储资源[2]

存算一体则是让存储具备计算的能力,从而解决数据反复搬迁导致的效率低下问题。如今国内外众多企业都已经开展了存算一体技术的研发,包括英特尔、SK 海力士、IBM、美光、三星、台积电、阿里等传统芯片大厂以及众多新兴 AI 和存储企业[3]

不过,这些方案在成本、技术成熟度等方面还需要更多验证。

所以,尽管我们都希望看到更多前瞻性解决方案能够早日落地,但是短期来看,英特尔®傲腾™ 持久内存仍然是当前比较容易实现而且性价比较高的一种内存墙解决方案。况且,傲腾™ 持久内存的容量还在持续升级,不久之后就可能看到单条 1TB 容量的产品出现,想必到了那时,其打破内存墙的效果将更加凸显。

参考链接:[1] https://www.oneflow.org/a/share/jishuboke/75.html[2]https://www.51cto.com/article/693956.html[3]http://www.dzsb.net/index.php/2022/05/05/quanqiucunsuanyitijishuyanjiujiliangchanqingkuangzuixinjinzh/

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
26天前
|
存储 人工智能 自然语言处理
|
14天前
|
人工智能 搜索推荐 Serverless
AI 剧本生成与动画创作方案评测
《AI剧本生成与动画创作》解决方案评测:该方案利用阿里云技术,实现从剧本撰写到视频合成的一站式自动化流程,部署文档指引准确,逻辑清晰。内容创作上显著简化流程、降低门槛,适合短视频创作者等用户,但部分术语较晦涩,特定风格的动画创作个性化不足。建议增加模板和教程,优化服务初始化流程,进一步提升用户体验。
49 15
|
11天前
|
机器学习/深度学习 人工智能 弹性计算
阿里云AI服务器价格表_GPU服务器租赁费用_AI人工智能高性能计算推理
阿里云AI服务器提供多种配置,包括CPU+GPU、FPGA等,适用于人工智能、机器学习和深度学习等计算密集型任务。本文整理了阿里云GPU服务器的优惠价格,涵盖NVIDIA A10、V100、T4等型号,提供1个月、1年和1小时的收费明细。具体规格如A10卡GN7i、V100-16G卡GN6v等,适用于不同业务场景,详情见官方页面。
72 11
|
20天前
|
存储 人工智能 算法
加速推进 AI+OS 深度融合,打造最 AI 的服务器操作系统 | 2024龙蜥大会主论坛
本次方案的主题是加速推进 AI+OS 深度融合,打造最 AI 的服务器操作系统,从产业洞察、创新实践、发展建议三个方面,指出 AI 原生应用对操作系统提出更高要求,需要以应用为导向、以系统为核心进行架构创新设计,要打造最 AI 的服务器操作系统。 1. 产业洞察 2. 创新实践 3. 发展建议
|
22天前
|
存储 人工智能 弹性计算
云端问道6期方案教学-创意加速器:AI 绘画创作
本文整理自绍懿老师在云端问道第6期关于“创意加速器:AI绘画创作”的分享,主要介绍阿里云通义万相大模型的应用。内容涵盖七大部分:有趣的应用场景、通义万相简介、使用方法、优势特点、典型案例(如电商和营销场景)、收费标准及实操部署。通过这些内容,用户可以快速了解如何利用通义万相实现文字生成图片、图像编辑等功能,并应用于实际业务中,提升效率与创造力。
|
22天前
|
人工智能 运维 Serverless
云端问道8期方案教学-基于Serverless计算快速构建AI应用开发
本文介绍了基于Serverless计算快速构建AI应用开发的技术和实践。内容涵盖四个方面:1) Serverless技术价值,包括其发展趋势和优势;2) Serverless函数计算与AI的结合,探讨AIGC应用场景及企业面临的挑战;3) Serverless函数计算AIGC应用方案,提供一键部署、模型托管等功能;4) 业务初期如何低门槛使用,介绍新用户免费额度和优惠活动。通过这些内容,帮助企业和开发者更高效地利用Serverless架构进行AI应用开发。
|
2月前
|
存储 弹性计算 运维
端到端的ECS可观测性方案,助力云上业务安全稳定
本文介绍了云原生时代保障业务系统可靠性的方法和挑战,重点探讨了阿里云ECS在提升业务稳定性、性能监控及自动化恢复方面的能力。文章分为以下几个部分:首先,阐述了业务可靠性的三个阶段(事前预防、事中处理、事后跟进);其次,分析了云上业务系统面临的困难与挑战,并提出了通过更实时的监测和自动化工具有效规避风险;接着,详细描述了ECS实例稳定性和性能问题的解决方案;然后,介绍了即将发布的ECS Lens产品,它将全面提升云上业务的洞察能力和异常感知能力;最后,通过具体案例展示了如何利用OS自动重启和公网带宽自适应调节等功能确保业务连续性。总结部分强调了ECS致力于增强性能和稳定性的目标。
|
1月前
|
存储 人工智能 运维
面向AI的服务器计算软硬件架构实践和创新
阿里云在新一代通用计算服务器设计中,针对处理器核心数迅速增长(2024年超100核)、超多核心带来的业务和硬件挑战、网络IO与CPU性能增速不匹配、服务器物理机型复杂等问题,推出了磐久F系列通用计算服务器。该系列服务器采用单路设计减少爆炸半径,优化散热支持600瓦TDP,并实现CIPU节点比例灵活配比及部件模块化可插拔设计,提升运维效率和客户响应速度。此外,还介绍了面向AI的服务器架构挑战与软硬件结合创新,包括内存墙问题、板级工程能力挑战以及AI Infra 2.0服务器的开放架构特点。最后,探讨了大模型高效推理中的显存优化和量化压缩技术,旨在降低部署成本并提高系统效率。
|
1月前
|
人工智能 弹性计算 运维
ECS控制台,AI助手与极简管控体验
本文介绍了ECS控制台的演进及最新AI工具功能。控制台作为运维平台,需兼顾用户体验、可靠性和安全性。针对不同用户(个人开发者、企业级用户、资源管理员和架构师),控制台提供了定制化AI助手,涵盖售前选型、售中购买、售后运维等全链路支持。AI助手可智能分析用户需求,推荐合适规格,并提供实例诊断、命令解释等功能,简化操作流程。此外,还推出了简洁版控制台,优化了小资源量用户的使用体验,减少复杂度,提升效率。未来,控制台将朝着更智能、个性化的chat ops方向发展。
|
1月前
|
存储 人工智能 芯片
面向AI的服务器计算互连的创新探索
面向AI的服务器计算互连创新探索主要涵盖三个方向:Scale UP互连、AI高性能网卡及CIPU技术。Scale UP互连通过ALink系统实现极致性能,支持大规模模型训练,满足智算集群需求。AI高性能网卡针对大规模GPU通信和存储挑战,自研EIC网卡提供400G带宽和RDMA卸载加速,优化网络传输。CIPU作为云基础设施核心,支持虚拟化、存储与网络资源池化,提升资源利用率和稳定性,未来将扩展至2*800G带宽,全面覆盖阿里云业务需求。这些技术共同推动了AI计算的高效互联与性能突破。

热门文章

最新文章