弹性计算双周刊 第23期-阿里云开发者社区

开发者社区> 弹性计算> 正文

弹性计算双周刊 第23期

简介: 3月20日阿里云在2019 NVIDIA GPU技术大会上发布了国内首个公共云上的轻量级GPU异构计算产品VGN5i实例

【最新动态】
3月20日阿里云在2019 NVIDIA GPU技术大会上发布了国内首个公共云上的轻量级GPU异构计算产品VGN5i实例
VGN5i实例不仅打破了传统直通模式的局限,还可以让客户以更低成本、更高弹性开展业务!以云游戏为例,企业通常仅需要一颗物理GPU几分之一的计算能力即可流畅完成图形或视觉计算;人工智能领域也存在类似问题,深度学习推理场景对GPU的计算资源消耗可能仅仅是训练阶段的数十分之一,甚至更少。对于这类应用场景而言,轻量级计算异构产品可以提升系统灵活性,并大幅降低成本。而阿里云本次首家提供云上轻量级GPU实例,意味着用户可以用更细粒度的计算资源开启业务。
该产品基于NVIDIA Tesla P4 GPU,支持多种规格,企业可以按需选择实例规格或者在云市场选择NVIDIA Quadro虚拟工作站,适用于云游戏、AR/VR以及图形处理等随需应变的GPU计算场景。
GPU_

3月21日,阿里云发布业内首个公共云异构超算集群SCC-GN6
基于弹性裸金属服务器神龙X-Dragon的SCC-GN6,集群性能接近线性增长,将深度学习训练时间缩短至分钟级,可满足无人驾驶、智能推荐、机器翻译等人工智能场景的高性能计算需求。人工智能特别是深度学习,对算力的要求永无止境。但如果只是堆砌芯片,没有低延时网络、高速读写能力,大规模集群无法发挥出最大的计算性能,性能损耗通常在50%左右。且算力资源并不丰富,有研究显示,到2030年中国研究人员每人平均只能拥有1-2个GPU,大多数研究将受到计算能力的严重限制。SCC-GN6是首个基于X-Dragon架构的超算异构产品,神龙云服务器与阿里云ECS、GPU云服务器等一起,最多可达512个节点,计算性能依旧接近线性增长,提供堪比超算中心的并行计算资源。
SCC_GN6_

弹性计算推出新付费模式
预留实例券
预留实例券是一种抵扣券,可以提供按量实例账单抵扣及容量预留。相比预付费实例,预留实例券与按量付费实例这种组合模式可以兼顾灵活性和成本同时比标准月价格更优惠。目前ReservedInstance已全网开放邀测。

Ali-Perseus:擎天统一深度学习分布式通信框架,增加资源性能,提升阿里云异构计算产品的性价比

阿里云推出擎天统一深度学习分布式通信框架,业界首次统一支持Tensorflow、Caffe、MXNET、PyTorch 4个主流的深度学习框架的分布式性能加速,性能比优化的通信框架horovod提升2~5倍不等。统一深度学习分布式通信框架的实现,将各种深度学习框架的分布式优化与框架自身完全解除了耦合,可以在一个统一的框架之下进行阿里云基础设施的深度优化。
持续基于阿里云VPC网络进行深度优化,直接让Tensorflow,MXNet,Pytorch和Caffe全面提升了在阿里云上的多机多卡扩展性,大大提升了阿里云异构计算优化的效率,也减轻了性能优化、开发和维护的工作量。客户A已经在使用Ali-Perseus+Tensorflow+Bert在生产环境中进行预训练,性能提升为horovod的2~5倍。客户B在评测Ali-Perseus+MXNet,目前反馈,与客户的自有MXNet框架整合顺利,检测模型的4机32卡性能提升10%以上,性能上限接近线形加速比,客户仍在进一步测试中。客户可以完全保留之前的开源训练框架不变的同时,享受到Ali-Perseus 通信框架的性能优势,对大部分客户来说,是比较容易接受的一种方案。对于客户购买的IaaS资源来说,会直接增加这些资源的性能,提升阿里云异构计算产品的性价比。

弹性高性能计算E-HPC自动扩容新模式:按多种备选实例类型进行扩容
E-HPC的自动扩容功能增加了一种新模式:每个调度器队列支持配置实例列表,自动扩容时如果一种实例库存不足,将根据当前队列的实例列表选择其他实例进行扩容,最大限度的确保用户自动扩容能够成功,保障用户作业业务连续性。大客户资源报备供应查询大客户在固定时间内的资源需求阿里云无法满足时,CBM 会在后台帮客户提交一个资源报备。改功能发布前,若资源状态有更新的时,需要CBM通知客户去购买。在该功能发布后,客户可以直接在buy页面查看供应情况,对于已交付可以直接购买完成交易。

AUTOSCALING新功能发布
伸缩规则增加了minAdjustmentMagnitude参数,解决simpleScalingRule采用Percentage方式缩容时,存在无法将伸缩组全部实例释放完的情况。支持用户设置步进伸缩规则,通过不同的区间定义不同的扩容容策略。修复通过启动模板创建伸缩组全镜像未妥善处理,导致的多创建数据盘的问题。

ECI新功能发布
ECI 监控功能发布,监控是 IaaS 基础设施的核心能力,ECI 用户通过监控可以及时感知系统状态,并辅助弹性伸缩和调度系统的决策。ECI 当前已经支持容器组及容器级别的的 cpu , memory , network , load 数据的监控,同时为了兼顾Kubernetes用户和其他用户的使用习惯,在数据查询和展示上即支持云监控查询,也支持通过 OpenAPI 实时监控数据和汇聚查询。
新开放大规格实例,容器已经越来越广泛的应用在基因计算、视频编码转码、机器学习等场景,这些场景对于计算资源有强烈的大规格(大于4vCPU)诉求,ECI 已经开放 8vCPU 及以上 vCPU规格,最大支持 64 vCPU规格,满足上述场景的诉求。

【产品资讯】
阿里云为吉利汽车建立了目前中国最大公共云HPC仿真平台
使用神龙SCC规格族为客户创建了可伸缩的近20000物理核规模的仿真集群。SCC规格族使用了RoCE RDMA网络提供了低延迟,高带宽的内部互联,为多机多核并行CAE应用扩展提供近乎线性加速比;使用阿里云超算SCC平台后,通过优化多核调用效率和内存带宽配比,较之前的生产环境相比,显著提升了仿真计算效率,提升license使用效率,汽车碰撞仿真应用LS-Dyna提升40%,汽车流体仿真应用StarCCM+提升近20%。吉利汽车仿真整体上云对汽车主机厂搬云提供了强劲的案例杠杆。

阿里云北京峰会人工智能专场,异构计算集群加速技术解读

介绍阿里云异构计算的弹性GPU计算服务,在AI算力需求爆发的时代,提供超大规模GPU集群算力,在高性能,高可靠性以及易用性几个关键点上为阿里云的AI客户提供GPU计算服务。着重介绍了几个新产品和服务,包括轻量级GPU实例用来满足众多轻量级的应用场景例如云游戏, AR VR, AI推理以及AI教学场景;以及Ali-Perseus 阿里云AI加速引擎--业界第一个统一四种主流框架Tensorflow,Pytorch,MXNet和Caffe的分布式训练的云上加速引擎,在VPC网络环境下,为客户带来显著的加速,Bert在2机16卡下,加速4倍左右,Insightface在4机32卡下加速超过2倍,显著的加速了客户和合作伙伴在人工智能领域的业务创新速度。

阿里云北京峰会分论坛深度解析弹性计算技术和产品
基础设施分论坛上,从安全、稳定、弹性、提升性价比等方面深入解析了弹性计算ECS。在PAAS层产品陆续登台的今天,ECS更加需要为All-in-Cloud时代勤练内功、夯实计算基础。阿里云智能北京峰会,异构计算发布了多款产品,产品能力的提升,获得了客户的广泛关注。异构计算产品覆盖的应用场景,从单一的人工智能,开始向视频,VR/AR,游戏,工业设计等领域扩展。

【最佳实践】
你想知道的ECS最新功能都在这儿:
https://help.aliyun.com/document_detail/110530.html
本地自建数据库迁移到ECS & ECS实例自建数据库间迁移:
https://help.aliyun.com/document_detail/108121.html
https://help.aliyun.com/document_detail/108218.html
Packer构建镜像 & Packer的DevOps配置:
https://help.aliyun.com/document_detail/111070.html
https://help.aliyun.com/document_detail/111095.html

阿里云异构计算打破传统直通模式局限,更低成本、更高弹性开展业务,带你了解国内首个公共云上的轻量级GPU,10日下午3点直播发布,https://yq.aliyun.com/live/938
vGN5i_410

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:
+ 订阅

做技术领先、性能优异、稳如磐石的弹性计算!

官方博客
官网链接