阿里云高性能计算今起商用 平台受热捧

简介: 本文讲的是阿里云高性能计算今起商用 平台受热捧【IT168 云计算】如果把普通计算机的运算比作成人走路,那么高性能计算机则可以称为计算机界的运载火箭,其计算速度能达到每秒千万亿次,能计算普通PC机和服务器不能完成的大型、复杂课题,在诸如天气预报、基因、核工业、军事、航天等高科技领域都可以见到高性能计算机的身影。

本文讲的是阿里云高性能计算今起商用 平台受热捧【IT168 云计算】如果把普通计算机的运算比作成人走路,那么高性能计算机则可以称为计算机界的运载火箭,其计算速度能达到每秒千万亿次,能计算普通PC机和服务器不能完成的大型、复杂课题,在诸如天气预报、基因、核工业、军事、航天等高科技领域都可以见到高性能计算机的身影。

  高性能计算机是一个国家科技实力的象征,人们熟知的“天河一号”、“天河二号”就是我国自行研制的高性能计算机的代表。

  近几年,基于互联网和人工智能技术的创业风起云涌,格灵深瞳、Face++、神马语音等公司在图像、语音、安全等领域进行着人工智能的创新,以图形图象和音视频为代表的深度学习是典型的计算密集型应用,由此催生了互联网行业对高性能计算的需求。

  中国首个云上高性能计算平台受热捧

  12月15日,阿里云基于公共云平台的高性能计算产品HPC正式对外商用,用户可通过官网购买GPU服务器实例。这也是中国首个云上高性能计算平台。

  早在今年9月阿里云HPC对外公测期间,上百家用户找到阿里云申请使用并排起长队,每周新增排队用户比测完用户还多,客户类型涵盖深度学习、科研、金融甚至国家超算用户。

  据了解,阿里云HPC每个计算集群配备2个GPU+2个CPU+128G内存+13T存储数据,单机单精度浮点计算能力达到11T flops。同时配备128G内存,13T本地盘存储数据,双千兆上联网络等。

  “我们会给用户专属100%物理机,CPU、GPU不会发生争抢,保证无性能波动,没有虚拟化开销,也会有任何硬件功能的阉割。” 阿里云HPC产品负责人长仁强调。

  据测算,假如有200万张图片需要学习,用一台双路E5-2650 v2的服务器训练需要16天时间,而如果用阿里云双GPU物理机仅需要1天。

  游戏玩家应该对图形处理器GPU非常熟悉,他们会购买专门的显卡提升视频游戏体验。现在,因为GPU强大的数学处理能力,其被越来越多地应用于高性能计算。

  为什么不使用大量CPU而要用GPU?这两者有何区别?

  长仁介绍,单核CPU的理论浮点性能和GPU目前差距约两个数量级,多核CPU比如双路16核,和GPU相差8倍。

  深度学习是浮点计算密集应用,目前广泛使用GPU。假如单纯堆砌大量CPU会造成网络通信延迟,堆得越多速度越慢。而单机GPU计算能力密度高,所以业界普遍使用GPU。

  世界高性能计算TOP500很多采用GPU加速,比如我国首个夺取全球第一名的超级计算机“天河一号”。

  阿里云的GPU合作伙伴是NVIDIA。NVIDIA全球副总裁、PSG兼云计算业务总经理Ashok Pandey表示:“深度学习是NVIDIA重要的战略方向,未来我们将发挥自身在深度学习技术平台的优势和在全球深度学习领域积累的应用经验,与阿里云一起为中国致力于深度学习的新兴企业提供更强大的支持。”

  开放全世界唯一kepler架构GPU原生汇编器

  高性能计算不仅需要硬件设施,更需要匹配“软实力”,才能最大限度发挥硬件性能。

  长仁介绍,阿里云不仅提供硬件和基本系统,更为HPC准备了Docker实例、调度系统、监控平台,以及针对深度学习的训练、预测中间件和工具。

  尤其值得一提的是,阿里云HPC主页(hpc.aliyun.com)开放了全世界唯一的kepler架构GPU原生汇编器及cuda占用计算器,这是阿里内部性能调优的“独门秘技”。阿里用这款汇编器优化出了目前在kepler架构GPU上最快的卷积、矩阵乘法实现。

阿里云高性能计算HPC商用 平台受热捧
▲alexnet第二层卷积单精度量化性能

  专注于计算机视觉识别的明星创业公司格灵深瞳HPC负责人张洋表示:“阿里云HPC产品性能强劲,配置简单,作为线上预测服务平台是很棒的选择。期待阿里云自己的深度学习软件框架上线。”

  涂鸦技术架构师柯都敏也称赞阿里云“强劲的HPC能快速解决我们对数据训练和线上业务的需要”。

  只有用户才能更好地服务用户

  领先的互联网巨头如Google、Facebook都是GPU的深度用户。同样,阿里内部也部署了大规模的GPU异构计算集群,服务于所有内部应用。

  在对外提供服务之前,阿里云已经在高性能计算领域实践多年,从设备选型、准入测试、运维监控,到系统架构、性能优化等,整个链条都有深入积累。

  长仁认为,脱胎于阿里“母体”的HPC不仅是一款产品,更是一种服务能力,这是阿里云的核心竞争力。

  这种能力也得到了用户的认可。利用深度学习搜寻时尚商品的创业公司Dress+ VP严布江就评价阿里云HPC团队“业务技能精湛,服务周到热情”。

  从一些细节能看出长期积累的重要性。比如同样是利用GPU,但不同的公司会在具体技术选择上产生差异,小到如何插卡保证硬件性能的发挥都大有学问。

  比如阿里云选择了NVIDIA K40,K40的GK110B是kepler架构GPU单核性能最强。在深度学习应用中,关键的卷积计算、矩阵乘法计算在开启或者关闭boost下,K40表现最出色。  

阿里云高性能计算HPC商用 平台受热捧

  市场上另外一些方案则会选择NVIDIA K80。K80是两个GK210核心,从用户的角度看虽然K80是1张卡,但是两个设备。每个设备的计算能力和K40比还有差距,用户要用好两个设备,相互配合完成一个任务需要额外的开发,使用难度会提高。

  专注于人脸识别的创业公司Face++许欣然对K40的性能表示认同,他表示“阿里云HPC服务器性能优异,发挥了双卡K40的极致性能”,另外“运维出色,稳定性非常强”。

  长仁表示,阿里云既是阿里内部用户的服务者,也同样是用户,现在更是云上服务的提供者。只有经过实践才能更好地服务外部客户。

原文发布时间为:2015-12-15 

本文作者:张苗苗

本文来自云栖社区合作伙伴IT168,了解相关信息可以关注IT168

原文标题:阿里云高性能计算今起商用 平台受热捧

目录
相关文章
|
8月前
|
机器学习/深度学习 人工智能 弹性计算
阿里云AI服务器价格表_GPU服务器租赁费用_AI人工智能高性能计算推理
阿里云AI服务器提供多种配置,包括CPU+GPU、FPGA等,适用于人工智能、机器学习和深度学习等计算密集型任务。本文整理了阿里云GPU服务器的优惠价格,涵盖NVIDIA A10、V100、T4等型号,提供1个月、1年和1小时的收费明细。具体规格如A10卡GN7i、V100-16G卡GN6v等,适用于不同业务场景,详情见官方页面。
761 11
|
8月前
|
存储 弹性计算 调度
云上普惠高性能计算平台,助力HPC行业创新
EHPC(弹性高性能计算)产品架构分为三个层次:资源层、服务层和使用界面层。资源层按HPC行业需求编排ECS实例、存储和调度管理资源,形成支持VPC和RDMA网络的集群。服务层提供集群资源管理、应用管理和作业调度等功能,并支持基于负载的弹性伸缩。使用界面层包括控制台、HPC PORTAL和Open API,方便不同用户操作。今年新发布的功能包括基于英特尔八代处理器的HPC实例、RDMA网络支持IB Verbs接口、拓扑感知的弹性伸缩能力以及Instant计算环境,优化了性能和成本。EHPC通过这些设计帮助客户快速上云并高效利用资源。
|
10月前
|
存储 人工智能 弹性计算
阿里云弹性计算(ECS)提供强大的AI工作负载平台,支持灵活的资源配置与高性能计算,适用于AI训练与推理
阿里云弹性计算(ECS)提供强大的AI工作负载平台,支持灵活的资源配置与高性能计算,适用于AI训练与推理。通过合理优化资源分配、利用自动伸缩及高效数据管理,ECS能显著提升AI系统的性能与效率,降低运营成本,助力科研与企业用户在AI领域取得突破。
280 6
|
10月前
|
存储 人工智能 调度
阿里云吴结生:高性能计算持续创新,响应数据+AI时代的多元化负载需求
在数字化转型的大潮中,每家公司都在积极探索如何利用数据驱动业务增长,而AI技术的快速发展更是加速了这一进程。
|
10月前
|
存储 人工智能 弹性计算
对话阿里云吴结生:AI时代,云上高性能计算的创新发展
在阿里云智能集团副总裁,弹性计算产品线负责人、存储产品线负责人 吴结生看来,如今已经有很多行业应用了高性能计算,且高性能计算的负载正呈现出多样化发展的趋势,“当下,很多基础模型的预训练、自动驾驶、生命科学,以及工业制造、半导体芯片等行业和领域都应用了高性能计算。”吴结生指出。
|
10月前
|
存储 人工智能 大数据
阿里云吴结生:高性能计算持续创新,响应数据+AI时代的多元化负载需求
在数字化转型的大潮中,每家公司都在积极探索如何利用数据驱动业务增长,而AI技术的快速发展更是加速了这一进程。
|
10月前
|
机器学习/深度学习 人工智能 弹性计算
阿里云AI服务器价格表_GPU服务器租赁费用_AI人工智能高性能计算推理
阿里云AI服务器提供多种配置选项,包括CPU+GPU、CPU+FPGA等组合,支持高性能计算需求。本文汇总了阿里云GPU服务器的价格信息,涵盖NVIDIA A10、V100、T4、P4、P100等多款GPU卡,适用于人工智能、机器学习和深度学习等场景。详细价格表和实例规格见文内图表。
1877 0
|
机器学习/深度学习 人工智能 弹性计算
阿里云AI服务器价格表_GPU服务器租赁费用_AI人工智能高性能计算推理
阿里云AI服务器提供多样化的选择,包括CPU+GPU、CPU+FPGA等多种配置,适用于人工智能、机器学习和深度学习等计算密集型任务。其中,GPU服务器整合高性能CPU平台,单实例可实现最高5PFLOPS的混合精度计算能力。根据不同GPU类型(如NVIDIA A10、V100、T4等)和应用场景(如AI训练、推理、科学计算等),价格从数百到数千元不等。详情及更多实例规格可见阿里云官方页面。
830 1
|
运维 资源调度 定位技术
【技术大图】手把手教你搭建生信分析高性能计算平台
生物医药行业产生PB级海量数据,需专业生信分析平台支持。本技术地图涵盖平台搭建全流程:从架构设计、关键技术解析,到标准化分析流程介绍及部署优化策略,助力IT团队高效构建生信算力平台。立即下载完整版!
427 1
|
存储 弹性计算 网络协议
阿里云hpc8ae服务器ECS高性能计算优化型实例性能详解
阿里云ECS的HPC优化型hpc8ae实例搭载3.75 GHz AMD第四代EPYC处理器,配备64 Gbps eRDMA网络,专为工业仿真、EDA、地质勘探等HPC工作负载设计。实例提供1:4的CPU内存配比,支持ESSD存储和IPv4/IPv6,操作系统限于特定版本的CentOS和Alibaba Cloud Linux。ecs.hpc8ae.32xlarge实例拥有64核和256 GiB内存,网络带宽和eRDMA带宽均为64 Gbit/s。适用于CFD、FEA、气象预报等场景。

热门文章

最新文章