在re:Invent 2022大会上,我们看到了云计算的未来

简介: 云技术到了变革的节点。AI 圈里很多人都听说过开源 AI 作画扩散模型 Stable Diffusion,见识过 AI 图片横扫朋友圈。最近大模型兴起除了造梗图之外,应用前景也在逐渐清晰,AIGC(人工智能生成内容)成为了众多科技公司正在尝试的领域。

不过,大模型的缺点就是太大:最初版本的 Stable Diffusion 动用了 256 块 A100 GPU,花费了 15 万 GPU 小时进行训练,仅这一项就是 60 万美元。

Stable Diffusion 刚刚推出 2.0 版,背后的公司 Stability AI 就宣布和亚马逊云科技展开了合作。


科技界最新的独角兽和最大云服务公司宣布合作的消息,正是在一年一度的亚马逊云科技 re:Invent 全球大会上。和往年一样,这场「云计算的春晚」上,亚马逊云科技发布的众多新技术吸引了全球的目光。


除了成为 Stability AI 首选云供应商之外,亚马逊云科技一口气推出了十余款新产品——从自研芯片、AI 工具到数据平台,云技术的未来被完整地展示了出来。


自研芯片,面向 AI 大模型、高性能计算


想要让人人都能跑得起大模型,首先得提升算力,亚马逊云科技有着丰富的芯片自研经验。自 2013 年推出 Amazon Nitro 系统以来,其推出了五代 Nitro 系统、提升多种工作负载性能的三代 Graviton 芯片、用于加速机器学习推理的两代 Inferentia 芯片,以及用于加速机器学习训练的 Trainium 芯片。


在 re:Invent 上,亚马逊云科技宣布了为其云服务提供基础的多款新硬件,包括新版本的 Nitro、新实例类型和基于 Arm 架构的新一代 Graviton 3E 芯片。新一代芯片在各类云计算任务上都实现了大幅度的进步:

image.png

应用新处理器的云服务实例是 Hpc7g,与当前的 C6gn 相比,其浮点性能提高了两倍,与 Hpc6a 相比性能提高了 20%,这为 HPC 工作负载提供了超高的性价比。

更加令人关注的的是 AI 训练和推理芯片。前不久,应用机器学习训练芯片 Trainium 的 AI 专用实例 Trn1 正式上线,它是第一个具有高达 800 Gbps EFA 网络带宽的 EC2 实例,拥有 512 GB 的高带宽内存,提供高达 3.4 petaflops 的 FP16/BF16 计算能力。

在超大规模集群 EC2 UltraClusters 中,用户最多可以扩展到多达 3 万块 Trainium,相当于使用一台 6.3 exaflops 算力的超算。



旨在为 AI 推理提供加速的 Inf2 实例配备了亚马逊自研的最新 Inferentia2 推理芯片,为运行多达 1750 亿参数的深度学习大模型进行了专门优化。与当前一代 Inf1 实例相比,新实例可提供高达 4 倍的吞吐量,还能降低多达 10 倍延迟,以最低的成本为 Amazon EC2 上的机器学习推理提供动力。

值得一提的是,亚马逊云科技为实现更快的芯片迭代速度,在芯片设计和验证中使用了基于云的电子设计自动化,从而使团队能够更快地将芯片提供给客户。

通过自研芯片,亚马逊云科技在云服务基础设施性能上保持了领先位置,在多种任务上实现了性能、效率和成本的优化。

持续降低软件开发门槛,完善端到端数据治理


在强大的算力基础之上,亚马逊云科技进一步降低了技术应用的门槛,发布了一系列 AI 开发能力,和用于数据治理的创新工具。

Amazon SageMaker 是业内第一个基于云的机器学习开发平台,最早于 2017 年推出,用于构建、训练和部署深度学习算法。新推出的功能可以让开发者更快地进行机器学习模型的端到端部署。

在 SageMaker Studio Notebooks 上,现在 AI 可以帮助开发者发现数据处理过程中的错误,当你选择系统建议的补救方法时,工具会自动生成实施所需的代码。部署使用 Jupyter 创建的神经网络通常是一项耗时的任务。

SageMaker Studio Notebooks 现在也可以将神经网络打包到软件容器中,无需开发者手动操作,不同团队现在也可以更方便地共享 AI 模型代码和其他软件组件。

使用 SageMaker 构建神经网络后,现在人们可以进行 shadow testing 测试,通过亚马逊云科技的人工智能算法来评估神经网络的可靠性。

在 AI 治理工作上,亚马逊提出了一系列工具,Amazon SageMaker Role Manager 让管理员可以轻松控制用户对公司 SageMaker 环境的访问,Amazon SageMaker Model Cards 则帮助软件团队管理项目机器学习部分产生的数据。最后是 Amazon SageMaker 模型仪表板,可用于在 AI 模型部署到生产环境后监控其可靠性。

在主 Keynote 演讲中,亚马逊云科技 CEO Adam Selipsky 多次强调了 ETL(Extraction-Transformation-Loading)对于数据工程师工作的挑战,它代表了大数据任务中数据抽取、转换和加载等一系列工作。在大数据任务中,ETL 经常会花费整个项目的 1/3 的时间。

亚马逊云科技希望消灭 ETL,让用户只需要专注于自己的业务逻辑,引入了 Amazon Aurora zero ETL 与 Amazon Redshift 的集成,让使用 Aurora 数据库和 Redshift 数据仓库的客户能够快速将数据应用于自家机器学习服务 SageMaker 打造 AI 应用,而无需自定义数据管道。

现在,亚马逊云科技支持 Amazon EMR、Glue 和 Amazon SageMaker 上的 Apache Spark,具有完全兼容且专门优化的性能,比开源版本速度快 3 倍。

随着数据量的爆炸性增长,AI 理所当然地成为了数据治理的新思路。Amazon DataZone 是一项数据管理服务,可以帮助企业编目、发现、共享及管理自有数据,其中管理并组织数据内容的工作都被交由机器学习来自动完成。

此外,Amazon Security Lake 可以帮助安全团队轻松地自动收集、组合和分析 PB 级的安全数据。


「在数据领域,亚马逊云科技基本实现了端到端的无服务器能力,接管了全部的数据处理,」Adam Selipsky 说道。「亚马逊云科技引导了开发模式的变更,实现了基于事件驱动的任务处理。」


解决实际行业难题


面向行业和应用,亚马逊云科技还发布了一系列工具。前段时间很多行业都遭遇了供应链问题,Amazon Supply Chain 可帮助供应链领导者降低风险和成本以提高供应链弹性,提供实时可视化地图功能,显示每个位置的库存水平和健康状况,提醒人们注意潜在风险,并提供库存重新平衡建议。

在受保护数据环境 Amazon Clean Rooms 中,多方分析组合数据时无需担心隐私泄露——一家拥有客户忠诚度数据的公司可以与另一家拥有用户广告点击行为数据的公司合作研究用户行为,同时又无需共享用户的原始和可识别数据。

在最前沿的 AI 加医疗领域,亚马逊云科技提出了基因组学数据服务 Amazon Omics,可帮助研究人员存储、分析基因组学、转录组学和其他组学的数据并从中生成见解。

re:Invent 上发布的 Amazon SimSpace Weaver 吸引了很多人的眼球,这是一种计算服务,允许开发人员在云中大规模运行城市规模的模拟,如自然灾害以测试应急响应系统、大型体育比赛对交通流量的影响等。面对此类复杂的情况,云上模拟优势之一是能够让多个外部方实时远程查看模拟结果并与之交互。



相关文章
|
3天前
|
人工智能 JavaScript Linux
【Claude Code 全攻略】终端AI编程助手从入门到进阶(2026最新版)
Claude Code是Anthropic推出的终端原生AI编程助手,支持40+语言、200k超长上下文,无需切换IDE即可实现代码生成、调试、项目导航与自动化任务。本文详解其安装配置、四大核心功能及进阶技巧,助你全面提升开发效率,搭配GitHub Copilot使用更佳。
|
5天前
|
存储 人工智能 自然语言处理
OpenSpec技术规范+实例应用
OpenSpec 是面向 AI 智能体的轻量级规范驱动开发框架,通过“提案-审查-实施-归档”工作流,解决 AI 编程中的需求偏移与不可预测性问题。它以机器可读的规范为“单一真相源”,将模糊提示转化为可落地的工程实践,助力开发者高效构建稳定、可审计的生产级系统,实现从“凭感觉聊天”到“按规范开发”的跃迁。
796 12
|
1天前
|
云安全 安全
免费+限量+领云小宝周边!「阿里云2026云上安全健康体检」火热进行中!
诚邀您进行年度自检,发现潜在风险,守护云上业务连续稳健运行
1159 1
|
5天前
|
消息中间件 人工智能 Kubernetes
阿里云云原生应用平台岗位急招,加入我们,打造 AI 最强基础设施
云原生应用平台作为中国最大云计算公司的基石,现全面转向 AI,打造 AI 时代最强基础设施。寻找热爱技术、具备工程极致追求的架构师、极客与算法专家,共同重构计算、定义未来。杭州、北京、深圳、上海热招中,让我们一起在云端,重构 AI 的未来。
|
4天前
|
人工智能 JavaScript 前端开发
【2026最新最全】一篇文章带你学会Cursor编程工具
本文介绍了Cursor的下载安装、账号注册、汉化设置、核心模式(Agent、Plan、Debug、Ask)及高阶功能,如@引用、@Doc文档库、@Browser自动化和Rules规则配置,助力开发者高效使用AI编程工具。
592 4
|
9天前
|
存储 JavaScript 前端开发
JavaScript基础
本节讲解JavaScript基础核心知识:涵盖值类型与引用类型区别、typeof检测类型及局限性、===与==差异及应用场景、内置函数与对象、原型链五规则、属性查找机制、instanceof原理,以及this指向和箭头函数中this的绑定时机。重点突出类型判断、原型继承与this机制,助力深入理解JS面向对象机制。(238字)
|
7天前
|
IDE 开发工具 C语言
【2026最新】VS2026下载安装使用保姆级教程(附安装包+图文步骤)
Visual Studio 2026是微软推出的最新Windows专属IDE,启动更快、内存占用更低,支持C++、Python等开发。推荐免费的Community版,安装简便,适合初学者与个人开发者使用。
886 11
|
4天前
|
存储 人工智能 测试技术
【Claude Skills】从原理到实战的完全指南
Claude Skills通过模块化设计,将AI变为领域专家,实现工作流标准化。它支持指令封装、自动触发与脚本集成,提升复用性与协作效率,适用于个人提效与团队协同,是AI定制化的新范式。
|
7天前
|
人工智能 Shell 开发工具
Claude Code 2.1.2超详细更新说明,小白也能10分钟上手
Claude Code 2.1.x重磅更新:Shift+Enter换行、Esc+Esc撤销、Ctrl+B后台运行,Skills技能系统全面升级,支持多语言、通配符权限与动态MCP检测,性能提升50%,迭代速度惊人,开发者效率暴涨!
Claude Code 2.1.2超详细更新说明,小白也能10分钟上手