阿里云高性能计算今起商用 平台受热捧

简介: 本文讲的是阿里云高性能计算今起商用 平台受热捧【IT168 云计算】如果把普通计算机的运算比作成人走路,那么高性能计算机则可以称为计算机界的运载火箭,其计算速度能达到每秒千万亿次,能计算普通PC机和服务器不能完成的大型、复杂课题,在诸如天气预报、基因、核工业、军事、航天等高科技领域都可以见到高性能计算机的身影。

本文讲的是阿里云高性能计算今起商用 平台受热捧【IT168 云计算】如果把普通计算机的运算比作成人走路,那么高性能计算机则可以称为计算机界的运载火箭,其计算速度能达到每秒千万亿次,能计算普通PC机和服务器不能完成的大型、复杂课题,在诸如天气预报、基因、核工业、军事、航天等高科技领域都可以见到高性能计算机的身影。

  高性能计算机是一个国家科技实力的象征,人们熟知的“天河一号”、“天河二号”就是我国自行研制的高性能计算机的代表。

  近几年,基于互联网和人工智能技术的创业风起云涌,格灵深瞳、Face++、神马语音等公司在图像、语音、安全等领域进行着人工智能的创新,以图形图象和音视频为代表的深度学习是典型的计算密集型应用,由此催生了互联网行业对高性能计算的需求。

  中国首个云上高性能计算平台受热捧

  12月15日,阿里云基于公共云平台的高性能计算产品HPC正式对外商用,用户可通过官网购买GPU服务器实例。这也是中国首个云上高性能计算平台。

  早在今年9月阿里云HPC对外公测期间,上百家用户找到阿里云申请使用并排起长队,每周新增排队用户比测完用户还多,客户类型涵盖深度学习、科研、金融甚至国家超算用户。

  据了解,阿里云HPC每个计算集群配备2个GPU+2个CPU+128G内存+13T存储数据,单机单精度浮点计算能力达到11T flops。同时配备128G内存,13T本地盘存储数据,双千兆上联网络等。

  “我们会给用户专属100%物理机,CPU、GPU不会发生争抢,保证无性能波动,没有虚拟化开销,也会有任何硬件功能的阉割。” 阿里云HPC产品负责人长仁强调。

  据测算,假如有200万张图片需要学习,用一台双路E5-2650 v2的服务器训练需要16天时间,而如果用阿里云双GPU物理机仅需要1天。

  游戏玩家应该对图形处理器GPU非常熟悉,他们会购买专门的显卡提升视频游戏体验。现在,因为GPU强大的数学处理能力,其被越来越多地应用于高性能计算。

  为什么不使用大量CPU而要用GPU?这两者有何区别?

  长仁介绍,单核CPU的理论浮点性能和GPU目前差距约两个数量级,多核CPU比如双路16核,和GPU相差8倍。

  深度学习是浮点计算密集应用,目前广泛使用GPU。假如单纯堆砌大量CPU会造成网络通信延迟,堆得越多速度越慢。而单机GPU计算能力密度高,所以业界普遍使用GPU。

  世界高性能计算TOP500很多采用GPU加速,比如我国首个夺取全球第一名的超级计算机“天河一号”。

  阿里云的GPU合作伙伴是NVIDIA。NVIDIA全球副总裁、PSG兼云计算业务总经理Ashok Pandey表示:“深度学习是NVIDIA重要的战略方向,未来我们将发挥自身在深度学习技术平台的优势和在全球深度学习领域积累的应用经验,与阿里云一起为中国致力于深度学习的新兴企业提供更强大的支持。”

  开放全世界唯一kepler架构GPU原生汇编器

  高性能计算不仅需要硬件设施,更需要匹配“软实力”,才能最大限度发挥硬件性能。

  长仁介绍,阿里云不仅提供硬件和基本系统,更为HPC准备了Docker实例、调度系统、监控平台,以及针对深度学习的训练、预测中间件和工具。

  尤其值得一提的是,阿里云HPC主页(hpc.aliyun.com)开放了全世界唯一的kepler架构GPU原生汇编器及cuda占用计算器,这是阿里内部性能调优的“独门秘技”。阿里用这款汇编器优化出了目前在kepler架构GPU上最快的卷积、矩阵乘法实现。

阿里云高性能计算HPC商用 平台受热捧
▲alexnet第二层卷积单精度量化性能

  专注于计算机视觉识别的明星创业公司格灵深瞳HPC负责人张洋表示:“阿里云HPC产品性能强劲,配置简单,作为线上预测服务平台是很棒的选择。期待阿里云自己的深度学习软件框架上线。”

  涂鸦技术架构师柯都敏也称赞阿里云“强劲的HPC能快速解决我们对数据训练和线上业务的需要”。

  只有用户才能更好地服务用户

  领先的互联网巨头如Google、Facebook都是GPU的深度用户。同样,阿里内部也部署了大规模的GPU异构计算集群,服务于所有内部应用。

  在对外提供服务之前,阿里云已经在高性能计算领域实践多年,从设备选型、准入测试、运维监控,到系统架构、性能优化等,整个链条都有深入积累。

  长仁认为,脱胎于阿里“母体”的HPC不仅是一款产品,更是一种服务能力,这是阿里云的核心竞争力。

  这种能力也得到了用户的认可。利用深度学习搜寻时尚商品的创业公司Dress+ VP严布江就评价阿里云HPC团队“业务技能精湛,服务周到热情”。

  从一些细节能看出长期积累的重要性。比如同样是利用GPU,但不同的公司会在具体技术选择上产生差异,小到如何插卡保证硬件性能的发挥都大有学问。

  比如阿里云选择了NVIDIA K40,K40的GK110B是kepler架构GPU单核性能最强。在深度学习应用中,关键的卷积计算、矩阵乘法计算在开启或者关闭boost下,K40表现最出色。  

阿里云高性能计算HPC商用 平台受热捧

  市场上另外一些方案则会选择NVIDIA K80。K80是两个GK210核心,从用户的角度看虽然K80是1张卡,但是两个设备。每个设备的计算能力和K40比还有差距,用户要用好两个设备,相互配合完成一个任务需要额外的开发,使用难度会提高。

  专注于人脸识别的创业公司Face++许欣然对K40的性能表示认同,他表示“阿里云HPC服务器性能优异,发挥了双卡K40的极致性能”,另外“运维出色,稳定性非常强”。

  长仁表示,阿里云既是阿里内部用户的服务者,也同样是用户,现在更是云上服务的提供者。只有经过实践才能更好地服务外部客户。

原文发布时间为:2015-12-15 

本文作者:张苗苗

本文来自云栖社区合作伙伴IT168,了解相关信息可以关注IT168

原文标题:阿里云高性能计算今起商用 平台受热捧

目录
相关文章
|
21天前
|
存储 弹性计算 监控
【阿里云云原生专栏】成本优化策略:在阿里云云原生平台上实现资源高效利用
【5月更文挑战第29天】本文探讨了在阿里云云原生平台上实现资源高效利用和成本优化的策略。通过资源监控与评估,利用CloudMonitor和Prometheus等工具分析CPU、内存等使用情况,识别浪费。实施弹性伸缩策略,利用自动伸缩规则根据业务负载动态调整资源。借助容器化管理和Kubernetes编排提高资源利用率,优化存储选择如OSS、NAS,以及网络配置如VPC和CDN。示例展示了如何使用Kubernetes的HorizontalPodAutoscaler进行弹性伸缩,降低成本。
116 4
|
21天前
|
边缘计算 Cloud Native 数据管理
【阿里云云原生专栏】云原生背景下的AIoT布局:阿里云Link平台解析
【5月更文挑战第29天】阿里云Link平台,作为阿里云在AIoT领域的核心战略,借助云原生技术,为开发者打造一站式物联网服务平台。平台支持多协议设备接入与标准化管理,提供高效数据存储、分析及可视化,集成边缘计算实现低延时智能分析。通过实例代码展示,平台简化设备接入,助力智能家居等领域的创新应用,赋能开发者构建智能生态系统。
116 3
|
28天前
|
监控 Cloud Native 数据库
【阿里云云原生专栏】性能优化之道:阿里云云原生平台上的监控与调优策略
【5月更文挑战第22天】本文介绍了阿里云云原生平台的监控与调优策略。阿里云提供如CloudMonitor、ARMS和ACK监控等工具,用于基础和应用监控,以及容器监控。调优策略包括资源、代码和架构优化,例如根据监控数据调整资源配置,优化代码性能,和利用微服务、容器化和无服务器化改进架构。示例代码展示了如何进行监控和调优操作,强调实时监控与针对性调优对提升云原生应用性能的重要性。
151 1
|
19小时前
|
存储 弹性计算 网络协议
阿里云高性能计算HPC优化实例商业化发布详解
基于云的高性能计算(Cloud HPC),与传统HPC相比更加灵活、高效。
|
2天前
|
机器学习/深度学习 人工智能 自然语言处理
【CVPR2024】阿里云人工智能平台PAI图像编辑算法论文入选CVPR2024
近期,阿里云人工智能平台PAI发表的图像编辑算法论文在CVPR-2024上正式亮相发表。论文成果是阿里云与华南理工大学贾奎教授领衔的团队共同研发。此次入选标志着阿里云人工智能平台PAI自主研发的图像编辑算法达到了先进水平,赢得了国际学术界的认可。在阿里云人工智能平台PAI算法团队和华南理工大学的老师学生们一同的坚持和热情下,将阿里云在图像生成与编辑领域的先进理念得以通过学术论文和会议的形式,向业界传递和展现。
|
16天前
|
边缘计算 安全 人工智能
|
21天前
|
OLAP 数据处理 Apache
众安保险 CDP 平台:借助阿里云数据库 SelectDB 版内核 Apache Doris 打破数据孤岛,人群圈选提速4倍
众安保险在CDP(Customer Data Platform,客户数据平台)建设中,通过引入阿里云数据库SelectDB版内核Apache Doris,成功打破了数据孤岛,并显著提升了人群圈选的速度
193 1
|
21天前
|
机器学习/深度学习 弹性计算 自然语言处理
【阿里云弹性计算】深度学习训练平台搭建:阿里云 ECS 与 GPU 实例的高效利用
【5月更文挑战第28天】阿里云ECS结合GPU实例为深度学习提供高效解决方案。通过弹性计算服务满足大量计算需求,GPU加速训练。用户可按需选择实例规格,配置深度学习框架,实现快速搭建训练平台。示例代码展示了在GPU实例上使用TensorFlow进行训练。优化包括合理分配GPU资源和使用混合精度技术,应用涵盖图像识别和自然语言处理。注意成本控制及数据安全,借助阿里云推动深度学习发展。
147 2
|
21天前
|
弹性计算 运维 监控
【阿里云云原生专栏】自动化运维的艺术:阿里云云原生平台的自动化运维工具集
【5月更文挑战第28天】阿里云云原生平台提供全面的自动化运维工具,涵盖监控告警、资源管理、部署更新、故障自愈、安全管理和数据备份等方面,简化运维工作,增强系统稳定性。通过智能工具集,运维人员能专注于业务优化,实现高效运维,为企业数字化转型提供有力支持。
158 3
|
21天前
|
供应链 Cloud Native 安全
【阿里云云原生专栏】云原生与区块链的交响曲:阿里云 BaaS 平台的应用展望
【5月更文挑战第28天】阿里云BaaS平台融合云原生与区块链技术,提供一站式便捷、高性能且安全的区块链服务。在供应链和金融等领域应用广泛,如智能合约示例所示,助力数字化转型。未来,两者融合将深化,创造更多应用模式。企业和开发者应把握机遇,借助阿里云BaaS平台开创未来。
242 1

热门文章

最新文章