在re:Invent 2022大会上,我们看到了云计算的未来

简介: 云技术到了变革的节点。AI 圈里很多人都听说过开源 AI 作画扩散模型 Stable Diffusion,见识过 AI 图片横扫朋友圈。最近大模型兴起除了造梗图之外,应用前景也在逐渐清晰,AIGC(人工智能生成内容)成为了众多科技公司正在尝试的领域。

不过,大模型的缺点就是太大:最初版本的 Stable Diffusion 动用了 256 块 A100 GPU,花费了 15 万 GPU 小时进行训练,仅这一项就是 60 万美元。

Stable Diffusion 刚刚推出 2.0 版,背后的公司 Stability AI 就宣布和亚马逊云科技展开了合作。


科技界最新的独角兽和最大云服务公司宣布合作的消息,正是在一年一度的亚马逊云科技 re:Invent 全球大会上。和往年一样,这场「云计算的春晚」上,亚马逊云科技发布的众多新技术吸引了全球的目光。


除了成为 Stability AI 首选云供应商之外,亚马逊云科技一口气推出了十余款新产品——从自研芯片、AI 工具到数据平台,云技术的未来被完整地展示了出来。


自研芯片,面向 AI 大模型、高性能计算


想要让人人都能跑得起大模型,首先得提升算力,亚马逊云科技有着丰富的芯片自研经验。自 2013 年推出 Amazon Nitro 系统以来,其推出了五代 Nitro 系统、提升多种工作负载性能的三代 Graviton 芯片、用于加速机器学习推理的两代 Inferentia 芯片,以及用于加速机器学习训练的 Trainium 芯片。


在 re:Invent 上,亚马逊云科技宣布了为其云服务提供基础的多款新硬件,包括新版本的 Nitro、新实例类型和基于 Arm 架构的新一代 Graviton 3E 芯片。新一代芯片在各类云计算任务上都实现了大幅度的进步:

image.png

应用新处理器的云服务实例是 Hpc7g,与当前的 C6gn 相比,其浮点性能提高了两倍,与 Hpc6a 相比性能提高了 20%,这为 HPC 工作负载提供了超高的性价比。

更加令人关注的的是 AI 训练和推理芯片。前不久,应用机器学习训练芯片 Trainium 的 AI 专用实例 Trn1 正式上线,它是第一个具有高达 800 Gbps EFA 网络带宽的 EC2 实例,拥有 512 GB 的高带宽内存,提供高达 3.4 petaflops 的 FP16/BF16 计算能力。

在超大规模集群 EC2 UltraClusters 中,用户最多可以扩展到多达 3 万块 Trainium,相当于使用一台 6.3 exaflops 算力的超算。



旨在为 AI 推理提供加速的 Inf2 实例配备了亚马逊自研的最新 Inferentia2 推理芯片,为运行多达 1750 亿参数的深度学习大模型进行了专门优化。与当前一代 Inf1 实例相比,新实例可提供高达 4 倍的吞吐量,还能降低多达 10 倍延迟,以最低的成本为 Amazon EC2 上的机器学习推理提供动力。

值得一提的是,亚马逊云科技为实现更快的芯片迭代速度,在芯片设计和验证中使用了基于云的电子设计自动化,从而使团队能够更快地将芯片提供给客户。

通过自研芯片,亚马逊云科技在云服务基础设施性能上保持了领先位置,在多种任务上实现了性能、效率和成本的优化。

持续降低软件开发门槛,完善端到端数据治理


在强大的算力基础之上,亚马逊云科技进一步降低了技术应用的门槛,发布了一系列 AI 开发能力,和用于数据治理的创新工具。

Amazon SageMaker 是业内第一个基于云的机器学习开发平台,最早于 2017 年推出,用于构建、训练和部署深度学习算法。新推出的功能可以让开发者更快地进行机器学习模型的端到端部署。

在 SageMaker Studio Notebooks 上,现在 AI 可以帮助开发者发现数据处理过程中的错误,当你选择系统建议的补救方法时,工具会自动生成实施所需的代码。部署使用 Jupyter 创建的神经网络通常是一项耗时的任务。

SageMaker Studio Notebooks 现在也可以将神经网络打包到软件容器中,无需开发者手动操作,不同团队现在也可以更方便地共享 AI 模型代码和其他软件组件。

使用 SageMaker 构建神经网络后,现在人们可以进行 shadow testing 测试,通过亚马逊云科技的人工智能算法来评估神经网络的可靠性。

在 AI 治理工作上,亚马逊提出了一系列工具,Amazon SageMaker Role Manager 让管理员可以轻松控制用户对公司 SageMaker 环境的访问,Amazon SageMaker Model Cards 则帮助软件团队管理项目机器学习部分产生的数据。最后是 Amazon SageMaker 模型仪表板,可用于在 AI 模型部署到生产环境后监控其可靠性。

在主 Keynote 演讲中,亚马逊云科技 CEO Adam Selipsky 多次强调了 ETL(Extraction-Transformation-Loading)对于数据工程师工作的挑战,它代表了大数据任务中数据抽取、转换和加载等一系列工作。在大数据任务中,ETL 经常会花费整个项目的 1/3 的时间。

亚马逊云科技希望消灭 ETL,让用户只需要专注于自己的业务逻辑,引入了 Amazon Aurora zero ETL 与 Amazon Redshift 的集成,让使用 Aurora 数据库和 Redshift 数据仓库的客户能够快速将数据应用于自家机器学习服务 SageMaker 打造 AI 应用,而无需自定义数据管道。

现在,亚马逊云科技支持 Amazon EMR、Glue 和 Amazon SageMaker 上的 Apache Spark,具有完全兼容且专门优化的性能,比开源版本速度快 3 倍。

随着数据量的爆炸性增长,AI 理所当然地成为了数据治理的新思路。Amazon DataZone 是一项数据管理服务,可以帮助企业编目、发现、共享及管理自有数据,其中管理并组织数据内容的工作都被交由机器学习来自动完成。

此外,Amazon Security Lake 可以帮助安全团队轻松地自动收集、组合和分析 PB 级的安全数据。


「在数据领域,亚马逊云科技基本实现了端到端的无服务器能力,接管了全部的数据处理,」Adam Selipsky 说道。「亚马逊云科技引导了开发模式的变更,实现了基于事件驱动的任务处理。」


解决实际行业难题


面向行业和应用,亚马逊云科技还发布了一系列工具。前段时间很多行业都遭遇了供应链问题,Amazon Supply Chain 可帮助供应链领导者降低风险和成本以提高供应链弹性,提供实时可视化地图功能,显示每个位置的库存水平和健康状况,提醒人们注意潜在风险,并提供库存重新平衡建议。

在受保护数据环境 Amazon Clean Rooms 中,多方分析组合数据时无需担心隐私泄露——一家拥有客户忠诚度数据的公司可以与另一家拥有用户广告点击行为数据的公司合作研究用户行为,同时又无需共享用户的原始和可识别数据。

在最前沿的 AI 加医疗领域,亚马逊云科技提出了基因组学数据服务 Amazon Omics,可帮助研究人员存储、分析基因组学、转录组学和其他组学的数据并从中生成见解。

re:Invent 上发布的 Amazon SimSpace Weaver 吸引了很多人的眼球,这是一种计算服务,允许开发人员在云中大规模运行城市规模的模拟,如自然灾害以测试应急响应系统、大型体育比赛对交通流量的影响等。面对此类复杂的情况,云上模拟优势之一是能够让多个外部方实时远程查看模拟结果并与之交互。



相关文章
|
存储 Cloud Native 云计算
首届!「中国云计算基础架构开发者大会」征稿启动
首届中国云计算基础架构开发者大会(China Cloud Computing Infrastructure Developer Conference – 简称 CID)即将举行。 与 CLK (中国 Linux 内核开发者大会)不同的是,CLK 主题是与 Linux 内核相关,CID 主题则以云计算基础架构技术为主。本文推送首届 CID 的征稿启事,希望对云计算感兴趣的朋友们踊跃参与,一起办好首届峰会。
795 0
首届!「中国云计算基础架构开发者大会」征稿启动
|
分布式计算 大数据 Hadoop
2016年北京中国云计算技术大会见闻
广告有,技术也有。云化是方向,新技术需要很强的把控力;spark还是最火的。
4194 1
|
大数据 云计算 容器
|
机器学习/深度学习 存储 人工智能
云栖科技评论第17期:亚马逊云服务(AWS) re:Invent2016大会召开
本周热点科技事件,是阿里云“ET”采用分布式爬虫收集全球海量互联网信息,利用文本挖掘和语义分析解析新闻关键词,使用深度神经网络将新闻分类,汇总而选择最新鲜的科技信息。 编辑制作:人民网研究院 内容提供:阿里云研究中心
906 0
|
数据中心 云计算
现场报道:第二届中国云计算大会开幕
本文讲的是现场报道:第二届中国云计算大会开幕【IT168 专稿】5月21日,第二届云计算大会在北京新云南皇冠假日酒店隆重召开。本次云计算大会为期两天,由主论坛(主题报告演讲,第一日)与分论坛讨论(第二日)两部分组成。IT168云计算频道受邀参会,第一时间将现场盛况呈现给读者。
1419 0

相关实验场景

更多
下一篇
无影云桌面