弹性计算双周刊 第23期

本文涉及的产品
轻量应用服务器 2vCPU 4GiB,适用于搭建容器环境
轻量应用服务器 2vCPU 1GiB,适用于搭建电商独立站
轻量应用服务器 2vCPU 4GiB,适用于搭建Web应用/小程序
简介: 3月20日阿里云在2019 NVIDIA GPU技术大会上发布了国内首个公共云上的轻量级GPU异构计算产品VGN5i实例

【最新动态】
3月20日阿里云在2019 NVIDIA GPU技术大会上发布了国内首个公共云上的轻量级GPU异构计算产品VGN5i实例
VGN5i实例不仅打破了传统直通模式的局限,还可以让客户以更低成本、更高弹性开展业务!以云游戏为例,企业通常仅需要一颗物理GPU几分之一的计算能力即可流畅完成图形或视觉计算;人工智能领域也存在类似问题,深度学习推理场景对GPU的计算资源消耗可能仅仅是训练阶段的数十分之一,甚至更少。对于这类应用场景而言,轻量级计算异构产品可以提升系统灵活性,并大幅降低成本。而阿里云本次首家提供云上轻量级GPU实例,意味着用户可以用更细粒度的计算资源开启业务。
该产品基于NVIDIA Tesla P4 GPU,支持多种规格,企业可以按需选择实例规格或者在云市场选择NVIDIA Quadro虚拟工作站,适用于云游戏、AR/VR以及图形处理等随需应变的GPU计算场景。
GPU_

3月21日,阿里云发布业内首个公共云异构超算集群SCC-GN6
基于弹性裸金属服务器神龙X-Dragon的SCC-GN6,集群性能接近线性增长,将深度学习训练时间缩短至分钟级,可满足无人驾驶、智能推荐、机器翻译等人工智能场景的高性能计算需求。人工智能特别是深度学习,对算力的要求永无止境。但如果只是堆砌芯片,没有低延时网络、高速读写能力,大规模集群无法发挥出最大的计算性能,性能损耗通常在50%左右。且算力资源并不丰富,有研究显示,到2030年中国研究人员每人平均只能拥有1-2个GPU,大多数研究将受到计算能力的严重限制。SCC-GN6是首个基于X-Dragon架构的超算异构产品,神龙云服务器与阿里云ECS、GPU云服务器等一起,最多可达512个节点,计算性能依旧接近线性增长,提供堪比超算中心的并行计算资源。
SCC_GN6_

弹性计算推出新付费模式
预留实例券
预留实例券是一种抵扣券,可以提供按量实例账单抵扣及容量预留。相比预付费实例,预留实例券与按量付费实例这种组合模式可以兼顾灵活性和成本同时比标准月价格更优惠。目前ReservedInstance已全网开放邀测。

Ali-Perseus:擎天统一深度学习分布式通信框架,增加资源性能,提升阿里云异构计算产品的性价比

阿里云推出擎天统一深度学习分布式通信框架,业界首次统一支持Tensorflow、Caffe、MXNET、PyTorch 4个主流的深度学习框架的分布式性能加速,性能比优化的通信框架horovod提升2~5倍不等。统一深度学习分布式通信框架的实现,将各种深度学习框架的分布式优化与框架自身完全解除了耦合,可以在一个统一的框架之下进行阿里云基础设施的深度优化。
持续基于阿里云VPC网络进行深度优化,直接让Tensorflow,MXNet,Pytorch和Caffe全面提升了在阿里云上的多机多卡扩展性,大大提升了阿里云异构计算优化的效率,也减轻了性能优化、开发和维护的工作量。客户A已经在使用Ali-Perseus+Tensorflow+Bert在生产环境中进行预训练,性能提升为horovod的2~5倍。客户B在评测Ali-Perseus+MXNet,目前反馈,与客户的自有MXNet框架整合顺利,检测模型的4机32卡性能提升10%以上,性能上限接近线形加速比,客户仍在进一步测试中。客户可以完全保留之前的开源训练框架不变的同时,享受到Ali-Perseus 通信框架的性能优势,对大部分客户来说,是比较容易接受的一种方案。对于客户购买的IaaS资源来说,会直接增加这些资源的性能,提升阿里云异构计算产品的性价比。

弹性高性能计算E-HPC自动扩容新模式:按多种备选实例类型进行扩容
E-HPC的自动扩容功能增加了一种新模式:每个调度器队列支持配置实例列表,自动扩容时如果一种实例库存不足,将根据当前队列的实例列表选择其他实例进行扩容,最大限度的确保用户自动扩容能够成功,保障用户作业业务连续性。大客户资源报备供应查询大客户在固定时间内的资源需求阿里云无法满足时,CBM 会在后台帮客户提交一个资源报备。改功能发布前,若资源状态有更新的时,需要CBM通知客户去购买。在该功能发布后,客户可以直接在buy页面查看供应情况,对于已交付可以直接购买完成交易。

AUTOSCALING新功能发布
伸缩规则增加了minAdjustmentMagnitude参数,解决simpleScalingRule采用Percentage方式缩容时,存在无法将伸缩组全部实例释放完的情况。支持用户设置步进伸缩规则,通过不同的区间定义不同的扩容容策略。修复通过启动模板创建伸缩组全镜像未妥善处理,导致的多创建数据盘的问题。

ECI新功能发布
ECI 监控功能发布,监控是 IaaS 基础设施的核心能力,ECI 用户通过监控可以及时感知系统状态,并辅助弹性伸缩和调度系统的决策。ECI 当前已经支持容器组及容器级别的的 cpu , memory , network , load 数据的监控,同时为了兼顾Kubernetes用户和其他用户的使用习惯,在数据查询和展示上即支持云监控查询,也支持通过 OpenAPI 实时监控数据和汇聚查询。
新开放大规格实例,容器已经越来越广泛的应用在基因计算、视频编码转码、机器学习等场景,这些场景对于计算资源有强烈的大规格(大于4vCPU)诉求,ECI 已经开放 8vCPU 及以上 vCPU规格,最大支持 64 vCPU规格,满足上述场景的诉求。

【产品资讯】
阿里云为吉利汽车建立了目前中国最大公共云HPC仿真平台
使用神龙SCC规格族为客户创建了可伸缩的近20000物理核规模的仿真集群。SCC规格族使用了RoCE RDMA网络提供了低延迟,高带宽的内部互联,为多机多核并行CAE应用扩展提供近乎线性加速比;使用阿里云超算SCC平台后,通过优化多核调用效率和内存带宽配比,较之前的生产环境相比,显著提升了仿真计算效率,提升license使用效率,汽车碰撞仿真应用LS-Dyna提升40%,汽车流体仿真应用StarCCM+提升近20%。吉利汽车仿真整体上云对汽车主机厂搬云提供了强劲的案例杠杆。

阿里云北京峰会人工智能专场,异构计算集群加速技术解读

介绍阿里云异构计算的弹性GPU计算服务,在AI算力需求爆发的时代,提供超大规模GPU集群算力,在高性能,高可靠性以及易用性几个关键点上为阿里云的AI客户提供GPU计算服务。着重介绍了几个新产品和服务,包括轻量级GPU实例用来满足众多轻量级的应用场景例如云游戏, AR VR, AI推理以及AI教学场景;以及Ali-Perseus 阿里云AI加速引擎--业界第一个统一四种主流框架Tensorflow,Pytorch,MXNet和Caffe的分布式训练的云上加速引擎,在VPC网络环境下,为客户带来显著的加速,Bert在2机16卡下,加速4倍左右,Insightface在4机32卡下加速超过2倍,显著的加速了客户和合作伙伴在人工智能领域的业务创新速度。

阿里云北京峰会分论坛深度解析弹性计算技术和产品
基础设施分论坛上,从安全、稳定、弹性、提升性价比等方面深入解析了弹性计算ECS。在PAAS层产品陆续登台的今天,ECS更加需要为All-in-Cloud时代勤练内功、夯实计算基础。阿里云智能北京峰会,异构计算发布了多款产品,产品能力的提升,获得了客户的广泛关注。异构计算产品覆盖的应用场景,从单一的人工智能,开始向视频,VR/AR,游戏,工业设计等领域扩展。

【最佳实践】
你想知道的ECS最新功能都在这儿:
https://help.aliyun.com/document_detail/110530.html
本地自建数据库迁移到ECS & ECS实例自建数据库间迁移:
https://help.aliyun.com/document_detail/108121.html
https://help.aliyun.com/document_detail/108218.html
Packer构建镜像 & Packer的DevOps配置:
https://help.aliyun.com/document_detail/111070.html
https://help.aliyun.com/document_detail/111095.html

阿里云异构计算打破传统直通模式局限,更低成本、更高弹性开展业务,带你了解国内首个公共云上的轻量级GPU,10日下午3点直播发布,https://yq.aliyun.com/live/938
vGN5i_410

相关实践学习
基于ACK Serverless轻松部署企业级Stable Diffusion
本实验指导您在容器服务Serverless版(以下简称 ACK Serverless )中,通过Knative部署满足企业级弹性需求的Stable Diffusion服务。同时通过对该服务进行压测实验,体验ACK Serverless 弹性能力。
Kubernetes极速入门
Kubernetes(K8S)是Google在2014年发布的一个开源项目,用于自动化容器化应用程序的部署、扩展和管理。Kubernetes通常结合docker容器工作,并且整合多个运行着docker容器的主机集群。 本课程从Kubernetes的简介、功能、架构,集群的概念、工具及部署等各个方面进行了详细的讲解及展示,通过对本课程的学习,可以对Kubernetes有一个较为全面的认识,并初步掌握Kubernetes相关的安装部署及使用技巧。本课程由黑马程序员提供。   相关的阿里云产品:容器服务 ACK 容器服务 Kubernetes 版(简称 ACK)提供高性能可伸缩的容器应用管理能力,支持企业级容器化应用的全生命周期管理。整合阿里云虚拟化、存储、网络和安全能力,打造云端最佳容器化应用运行环境。 了解产品详情: https://www.aliyun.com/product/kubernetes
目录
相关文章
|
3月前
|
人工智能 弹性计算 Cloud Native
超强辅助,Bolt.diy 一步搞定创意建站
Bolt.new 是 stackblitz 推出的一款 AI 编辑器,结合人工智能与 WebContainers 技术,支持无需复杂配置的完整开发环境。其开源版本 Bolt.diy 基于阿里云百炼模型服务和函数计算 FC,提供灵活定制、全栈开发支持及多模型适配能力。
484 92
|
移动开发 小程序 物联网
智能车位引导系统:智能导航,便捷停车
摘要(Markdown格式): 智慧停车场结合室内定位导航技术,提升停车效率及用户体验。设计包括移动端H5导航小程序、大屏端智能联动,以及基于GIS的物联网管理。系统提供空余车位引导、车位预约、多样化寻车及AR导航等功能,支持与不同停车场系统对接,确保可扩展性。通过优化的离场引导,减少车主寻找出口的时间,整体提升了大型公共场所的客流管理和信息化水平。
550 0
智能车位引导系统:智能导航,便捷停车
|
存储 算法
深入理解操作系统内存管理:分页系统的优势与挑战
【2月更文挑战第29天】 在现代操作系统中,内存管理是核心功能之一,它负责有效地分配、跟踪和回收内存资源。分页系统作为一种内存管理技术,已经成为大多数操作系统的标准配置。本文将探讨分页系统的原理、优势以及面临的挑战。通过对分页机制的深入分析,我们旨在提供一个全面的视角,以帮助读者更好地理解这一关键技术如何影响操作系统的性能和稳定性。
|
存储 固态存储 数据中心
SSD的核心技术、原理和实战应用
【2月更文挑战第12天】
354 0
麒麟系统卸载openjdk
麒麟系统卸载openjdk
274 0
|
存储 分布式计算 搜索推荐
1.1 云计算的产生背景|学习笔记
快速学习1.1 云计算的产生背景
程序人生 - 汽车后视镜锁车自动折叠为啥失灵?
程序人生 - 汽车后视镜锁车自动折叠为啥失灵?
151 0
程序人生 - 汽车后视镜锁车自动折叠为啥失灵?
|
安全
短视频APP开发都需要办理哪些资质证明及必备的办理要求
短视频APP的火热,打响了短视频商业资本市场竞争,在这个人人都抱着手机“刷视频”的时代,不难发现其中的商机,那么企业如何利用短视频
2299 0
短视频APP开发都需要办理哪些资质证明及必备的办理要求
|
存储 文件存储 对象存储
阿里云文件存储NAS简介及应用场景
如何使用阿里云文件存储NAS
|
前端开发 UED
支付宝玉伯:从前端到体验,如何把格局做大?
国内的前端行业,是一个群星璀璨,同时又有些纷纷扰扰的圈子。很多初出茅庐的年轻人怀着改变世界的梦想,谁也不服谁。
6112 0

热门文章

最新文章