弹性计算双周刊 第23期

简介: 3月20日阿里云在2019 NVIDIA GPU技术大会上发布了国内首个公共云上的轻量级GPU异构计算产品VGN5i实例

【最新动态】
3月20日阿里云在2019 NVIDIA GPU技术大会上发布了国内首个公共云上的轻量级GPU异构计算产品VGN5i实例
VGN5i实例不仅打破了传统直通模式的局限,还可以让客户以更低成本、更高弹性开展业务!以云游戏为例,企业通常仅需要一颗物理GPU几分之一的计算能力即可流畅完成图形或视觉计算;人工智能领域也存在类似问题,深度学习推理场景对GPU的计算资源消耗可能仅仅是训练阶段的数十分之一,甚至更少。对于这类应用场景而言,轻量级计算异构产品可以提升系统灵活性,并大幅降低成本。而阿里云本次首家提供云上轻量级GPU实例,意味着用户可以用更细粒度的计算资源开启业务。
该产品基于NVIDIA Tesla P4 GPU,支持多种规格,企业可以按需选择实例规格或者在云市场选择NVIDIA Quadro虚拟工作站,适用于云游戏、AR/VR以及图形处理等随需应变的GPU计算场景。
GPU_

3月21日,阿里云发布业内首个公共云异构超算集群SCC-GN6
基于弹性裸金属服务器神龙X-Dragon的SCC-GN6,集群性能接近线性增长,将深度学习训练时间缩短至分钟级,可满足无人驾驶、智能推荐、机器翻译等人工智能场景的高性能计算需求。人工智能特别是深度学习,对算力的要求永无止境。但如果只是堆砌芯片,没有低延时网络、高速读写能力,大规模集群无法发挥出最大的计算性能,性能损耗通常在50%左右。且算力资源并不丰富,有研究显示,到2030年中国研究人员每人平均只能拥有1-2个GPU,大多数研究将受到计算能力的严重限制。SCC-GN6是首个基于X-Dragon架构的超算异构产品,神龙云服务器与阿里云ECS、GPU云服务器等一起,最多可达512个节点,计算性能依旧接近线性增长,提供堪比超算中心的并行计算资源。
SCC_GN6_

弹性计算推出新付费模式
预留实例券
预留实例券是一种抵扣券,可以提供按量实例账单抵扣及容量预留。相比预付费实例,预留实例券与按量付费实例这种组合模式可以兼顾灵活性和成本同时比标准月价格更优惠。目前ReservedInstance已全网开放邀测。

Ali-Perseus:擎天统一深度学习分布式通信框架,增加资源性能,提升阿里云异构计算产品的性价比

阿里云推出擎天统一深度学习分布式通信框架,业界首次统一支持Tensorflow、Caffe、MXNET、PyTorch 4个主流的深度学习框架的分布式性能加速,性能比优化的通信框架horovod提升2~5倍不等。统一深度学习分布式通信框架的实现,将各种深度学习框架的分布式优化与框架自身完全解除了耦合,可以在一个统一的框架之下进行阿里云基础设施的深度优化。
持续基于阿里云VPC网络进行深度优化,直接让Tensorflow,MXNet,Pytorch和Caffe全面提升了在阿里云上的多机多卡扩展性,大大提升了阿里云异构计算优化的效率,也减轻了性能优化、开发和维护的工作量。客户A已经在使用Ali-Perseus+Tensorflow+Bert在生产环境中进行预训练,性能提升为horovod的2~5倍。客户B在评测Ali-Perseus+MXNet,目前反馈,与客户的自有MXNet框架整合顺利,检测模型的4机32卡性能提升10%以上,性能上限接近线形加速比,客户仍在进一步测试中。客户可以完全保留之前的开源训练框架不变的同时,享受到Ali-Perseus 通信框架的性能优势,对大部分客户来说,是比较容易接受的一种方案。对于客户购买的IaaS资源来说,会直接增加这些资源的性能,提升阿里云异构计算产品的性价比。

弹性高性能计算E-HPC自动扩容新模式:按多种备选实例类型进行扩容
E-HPC的自动扩容功能增加了一种新模式:每个调度器队列支持配置实例列表,自动扩容时如果一种实例库存不足,将根据当前队列的实例列表选择其他实例进行扩容,最大限度的确保用户自动扩容能够成功,保障用户作业业务连续性。大客户资源报备供应查询大客户在固定时间内的资源需求阿里云无法满足时,CBM 会在后台帮客户提交一个资源报备。改功能发布前,若资源状态有更新的时,需要CBM通知客户去购买。在该功能发布后,客户可以直接在buy页面查看供应情况,对于已交付可以直接购买完成交易。

AUTOSCALING新功能发布
伸缩规则增加了minAdjustmentMagnitude参数,解决simpleScalingRule采用Percentage方式缩容时,存在无法将伸缩组全部实例释放完的情况。支持用户设置步进伸缩规则,通过不同的区间定义不同的扩容容策略。修复通过启动模板创建伸缩组全镜像未妥善处理,导致的多创建数据盘的问题。

ECI新功能发布
ECI 监控功能发布,监控是 IaaS 基础设施的核心能力,ECI 用户通过监控可以及时感知系统状态,并辅助弹性伸缩和调度系统的决策。ECI 当前已经支持容器组及容器级别的的 cpu , memory , network , load 数据的监控,同时为了兼顾Kubernetes用户和其他用户的使用习惯,在数据查询和展示上即支持云监控查询,也支持通过 OpenAPI 实时监控数据和汇聚查询。
新开放大规格实例,容器已经越来越广泛的应用在基因计算、视频编码转码、机器学习等场景,这些场景对于计算资源有强烈的大规格(大于4vCPU)诉求,ECI 已经开放 8vCPU 及以上 vCPU规格,最大支持 64 vCPU规格,满足上述场景的诉求。

【产品资讯】
阿里云为吉利汽车建立了目前中国最大公共云HPC仿真平台
使用神龙SCC规格族为客户创建了可伸缩的近20000物理核规模的仿真集群。SCC规格族使用了RoCE RDMA网络提供了低延迟,高带宽的内部互联,为多机多核并行CAE应用扩展提供近乎线性加速比;使用阿里云超算SCC平台后,通过优化多核调用效率和内存带宽配比,较之前的生产环境相比,显著提升了仿真计算效率,提升license使用效率,汽车碰撞仿真应用LS-Dyna提升40%,汽车流体仿真应用StarCCM+提升近20%。吉利汽车仿真整体上云对汽车主机厂搬云提供了强劲的案例杠杆。

阿里云北京峰会人工智能专场,异构计算集群加速技术解读

介绍阿里云异构计算的弹性GPU计算服务,在AI算力需求爆发的时代,提供超大规模GPU集群算力,在高性能,高可靠性以及易用性几个关键点上为阿里云的AI客户提供GPU计算服务。着重介绍了几个新产品和服务,包括轻量级GPU实例用来满足众多轻量级的应用场景例如云游戏, AR VR, AI推理以及AI教学场景;以及Ali-Perseus 阿里云AI加速引擎--业界第一个统一四种主流框架Tensorflow,Pytorch,MXNet和Caffe的分布式训练的云上加速引擎,在VPC网络环境下,为客户带来显著的加速,Bert在2机16卡下,加速4倍左右,Insightface在4机32卡下加速超过2倍,显著的加速了客户和合作伙伴在人工智能领域的业务创新速度。

阿里云北京峰会分论坛深度解析弹性计算技术和产品
基础设施分论坛上,从安全、稳定、弹性、提升性价比等方面深入解析了弹性计算ECS。在PAAS层产品陆续登台的今天,ECS更加需要为All-in-Cloud时代勤练内功、夯实计算基础。阿里云智能北京峰会,异构计算发布了多款产品,产品能力的提升,获得了客户的广泛关注。异构计算产品覆盖的应用场景,从单一的人工智能,开始向视频,VR/AR,游戏,工业设计等领域扩展。

【最佳实践】
你想知道的ECS最新功能都在这儿:
https://help.aliyun.com/document_detail/110530.html
本地自建数据库迁移到ECS & ECS实例自建数据库间迁移:
https://help.aliyun.com/document_detail/108121.html
https://help.aliyun.com/document_detail/108218.html
Packer构建镜像 & Packer的DevOps配置:
https://help.aliyun.com/document_detail/111070.html
https://help.aliyun.com/document_detail/111095.html

阿里云异构计算打破传统直通模式局限,更低成本、更高弹性开展业务,带你了解国内首个公共云上的轻量级GPU,10日下午3点直播发布,https://yq.aliyun.com/live/938
vGN5i_410

相关实践学习
基于ACK Serverless轻松部署企业级Stable Diffusion
本实验指导您在容器服务Serverless版(以下简称 ACK Serverless )中,通过Knative部署满足企业级弹性需求的Stable Diffusion服务。同时通过对该服务进行压测实验,体验ACK Serverless 弹性能力。
Kubernetes极速入门
Kubernetes(K8S)是Google在2014年发布的一个开源项目,用于自动化容器化应用程序的部署、扩展和管理。Kubernetes通常结合docker容器工作,并且整合多个运行着docker容器的主机集群。 本课程从Kubernetes的简介、功能、架构,集群的概念、工具及部署等各个方面进行了详细的讲解及展示,通过对本课程的学习,可以对Kubernetes有一个较为全面的认识,并初步掌握Kubernetes相关的安装部署及使用技巧。本课程由黑马程序员提供。   相关的阿里云产品:容器服务 ACK 容器服务 Kubernetes 版(简称 ACK)提供高性能可伸缩的容器应用管理能力,支持企业级容器化应用的全生命周期管理。整合阿里云虚拟化、存储、网络和安全能力,打造云端最佳容器化应用运行环境。 了解产品详情: https://www.aliyun.com/product/kubernetes
目录
相关文章
|
弹性计算 负载均衡 网络协议
弹性计算双周刊 第19期
阿里云弹性计算ECS支持IPv6(公测)发布,ECS最新实例规格族支持 IPv6 和 IPv4双协议栈,不同于传统的通过NAT64协议转换方式,降低了数据访问链路的延迟。 IPv6配置是完全免费的,节省了NAT64网关的成本。
5562 0
弹性计算双周刊 第19期
|
机器学习/深度学习 弹性计算 编解码
弹性计算双周刊 第 9 期
中国开源软件推进联盟在2018年6月28日-29日召开的“第十三届开源中国开源世界高峰论坛”上发布了“2018 中国开源领袖人物”、“2018中国开源杰出贡献人物”的重要奖项,并对在开源领域的领袖人物、杰出贡献人物进行了肯定和褒奖。
4719 0
弹性计算双周刊 第 9 期
|
弹性计算 UED 异构计算
弹性计算双周刊 第1期
阿里云弹性计算,3月新闻不断,看点最爆。2018年3月22日最新消息,ECS弹性计算在性能和可信安全等方面表现优异,代表阿里云获得工信部认可,获得奖项。2018年3月9日弹性裸金属服务器商业化正式发布。
7029 0
|
弹性计算 Cloud Native PouchContainer
弹性计算双周刊 第18 期
首届云原生计算国际会议(KubeCon + CloudNativeCon,China,2018)在上海举办,弹性计算研究员伯瑜介绍了基于虚拟化、容器化编排技术的云计算操作系统PouchContainer。
4434 0
|
弹性计算 监控 异构计算
弹性计算双周刊 第17期
突发性能实例(Burstable instance,简称为t5实例),是一种能应对突发 CPU 性能需求的实例。每台 t5 实例都有一个基准 CPU 计算性能,并会根据实例规格以指定速度持续获取 CPU 积分。
2809 0
|
存储 弹性计算 测试技术
弹性计算双周刊 第20期
12月25日,斯坦福大学发布的DawnBench竞赛榜单中,ECS团队基于阿里云ecs.gn5i-c8g1.2xlarge实例的推理任务以每张图片4.218ms的性能,0.00000154美金的推理成本双双登顶DawnBench竞赛推理性能及推理成本榜单第一名。
5381 0
弹性计算双周刊 第20期
|
弹性计算 运维 应用服务中间件
弹性计算双周刊 第12期
阿里云专有宿主机DDH在新加坡云栖大会主论坛发布,ECS运维神器重装上阵,云助手亮相控制台。本期众多弹性计算产品新功能上线。
3489 0
|
弹性计算 运维
弹性计算双周刊 第11期
用户在阿里云上搭建关键业务系统,其系统可用性和业务连续性由阿里云和用户共同保障——阿里云为用户提供安全稳定的ECS云服务,用户设定预期的可用性目标并规划合理的架构;而基于ECS丰富的运维能力,用户可以将主动运维思想贯穿始终,借助OpenAPI和云助手实现大规模资源管理和运行时部署、利用弹性伸缩轻松应对负载峰谷波动、通过系统事件感知异常自动转移恢复故障,形成闭环的主动运维体系,防患于未然,最终实现业务永续运行。
10772 0
|
机器学习/深度学习 弹性计算 编解码
弹性计算双周刊 第4期
阿里云全新一代FPGA云主机F3(VU9P实例)正式上线邀测。F3云上板卡采用阿里云自研超高性能FPGA加速卡,搭载Xilinx 16nm Virtex UltraScale+ 器件VU9P,最大实例规格支持4个VU9P芯片,提供超过一千万逻辑单元,和高达47 TeraMACs 的DSP计算能力,为芯片原型验证,基因计算,图片/视频转码,以及大数据处理和人工智能推理等应用,提供极致的加速性能。
5275 0
|
机器学习/深度学习 存储 弹性计算
弹性计算双周刊 第14期
9月19日至9月22日,弹性计算始终坚持普世计算的使命,将飞天经过双十一大规模实战检验的技术红利开放给阿里云的用户和生态伙伴,弹性计算(ECS)团队在本届大会将通过7个分论坛在弹性,计算,存储,虚拟化等方面和大家探讨和交流如何实现技术创新,一起构建更好的弹性计算生态,提供更加稳定、安全、易用的云服务。
3853 0
弹性计算双周刊 第14期