解读云集群下的高性能计算

简介:

云计算最初是聚焦于为参与系统提高进应用架构,但在高性能计算方面却提供不了什么。现在,领先的云提供商正在对自己的产品及相关基础设施进行重构,以便让计算密集型应用具备实用性和成本效率。

传统上,云在架构上被设计为与Dropbox之类的存储、Gmail、iTunes以及Evernote等应用结合的服务交付。“集群的架构则是为了暴露存储以外的资源,比方说,那些需要在定制化网络执行供应商提供或用户开发的应用,” Bright Computing的CEO Matthijs Van Leeuwen说。

跟运行在专门硬件上的传统集群很像的是,基于云的集群出于某种目的也包含了独特的分布式资源的整合。这种云包括为能感知集群的数据库管理系统(DBMS)、高性能计算(HPC)或大数据分析应用提供平台。像Amazon、Rackspace这样的公有云提供商会把可用于在其云基础设施上开发集群的预定义资源实例暴露出来。

OpenStack允许组织定义自己的资源实例,然后用这些实例来在自己的私有云开发集群。物理服务器或者利用物理服务器上的超级管理程序的虚拟机器(VM)通常都是处在专门的本地集群里面的。对于开发者来说,关键的不同是云和专门集群之间的资源实例抽象有所不同。

集群常用情况

Leeuwen说云集群可用于替代或补充专门资源。对于专门硬件最小化的应用,如笔记本,云可用于集群的实例化、使用以及去实例化。在这一用例中,笔记本不再是一台访问基于云的集群的最终用户设备。它并不提供任何被用于执行计算或打造网络的实例化资源。

在第二种常见的用例中,基于云的资源可被用来作为专门资源的补充。这种情况下,本地资源通过哪些云资源的云爆发过程得到扩展。基于云的资源只需像专门资源一样被实例化、使用然后去实例化。本地与云端资源的区别对于最终用户以及许多类型的应用来说可以是透明的。

这两种情况都可以应用到公有云或者私有云上。组织可以将自己的应用架设来直接做这件事情,或者利用像Bright Cluster Manager之类的工具,在AWS或OpenStack私有云建立集群,从而减少前端开发和配置工作。

减少抽象的差别

开发者面临的最大挑战是提供像网络、CPU及存储等云资源与专门资源之间不同的抽象模型。云需要依赖实例化的资源。除了存储以外,基于云的CPU实例的暴露无论是公有云还是私有云产品都已经相当成熟。最新的云产品一般会伴随着针对InfiniBand网络连接、GPU加速以及自定义IP网络等特殊外部需求的服务和钩子一起提供。

任何需要经过这相同的到达路径的资源都可以暴露出来供任何类型的云内开发利用。因为集群通常利用了低时延、高带宽的内部互联结构,以及加速器和协处理器等特殊资源,在基于云的集群情况下,这些东西既代表了机遇,又会成为挑战。

组织得听凭云供应商来支持存储与计算以外资源的实例化,Leeuwen说。比如AWS,就通过Amazon VPC以及NVIDIA GPU实例支持定制的IP网络。一个好的做法是建立标准配置或利用第三方云管理来管理存储、计算、网络及加速器资源,无论它们是在本地的还是与AWS配合的。

时延是集群的关键

通信时延是建设可伸缩集群应用最大的挑战之一。好的做法是智能地为HPC筹划阶段数据。在数据端,这涉及到考虑使用更具成本效率、持久性更慢的存储服务,如AWS S3,以及利用AWS Glacier这样的归档服务,而不是更昂贵的RAM实例。

但一项甚至比这还大的网络挑战是将计算期间节点之间的通信时延最小化。在处理期间利用了消息传递的HPC应用是最容易受到瓶颈影响的。广泛利用MPI这样接口的应用将会错乱,除非开发者和运营团队确保节点之间的时延极低。

如果在集群中运行的MPI应用是封闭在私有云或者公有云范围之内的话,情况会更容易处理一些。但这个如果在运行于独立公有云或私有云的不同节点之间存在大量MPI流量的话会成为一个更大的问题。

同样的考虑也适用于在云端运行大数据分析。这对于跨本地和云基础设施之间有Hadoop分布式文件系统(HDFS)来说并没有太大意义。“不过HDFS完全位于本地或在云端的话在实践上还是工作得相当好的,” Leeuwen说。

扩充时维持性能的关键是分布式架构,敏捷云集成解决方案提供商Jitterbit的CTO Ilan Sehayek说。“让用户来选择在哪里运行API,以及在哪里运行支持该API的服务。”

还得确保所有通信都是由可伸缩的消息传递基础设施来提供的,这样才能提供API网关与服务之间快速、有保证的API请求交付。面向集群的服务也需要高效缓存技术来提供对API的快速响应,Sehayek补充道。


本文作者:boxi

来源:51CTO

相关文章
|
存储 缓存 弹性计算
阿里云服务器经济型e和通用算力型u1实例规格区别及选择参考
经济型e和通用算力型u1实例是目前阿里云的活动中,除轻量应用服务器之外,活动价格相对于其他云服务器实例规格更低的两个实例规格,很多个人和初创企业用户都会优先考虑选择这两个实例规格的云服务器,那么它们之间有什么区别呢?本文为大家介绍下经济型e和通用算力型u1实例规格的区别及选择参考。
2663 0
阿里云服务器经济型e和通用算力型u1实例规格区别及选择参考
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
技术创新领域,AI(AIGC)是否会让TRIZ“下岗”?
法思诺创新直播间探讨了AI(AIGC)是否将取代TRIZ的问题。专家赵敏认为,AI与TRIZ在技术创新领域具有互补性,结合两者更务实。TRIZ提供结构化分析框架,AI加速数据处理和方案生成。DeepSeek、Gemini等AI也指出,二者各有优劣,应在复杂创新中协同使用。企业应建立双轨知识库,重构人机混合创新流程,实现全面升级。结论显示,AI与TRIZ互补远超竞争,结合二者是未来技术创新的关键。
274 0
|
9月前
|
人工智能 编解码 算法
使用 PAI-DSW x Free Prompt Editing图像编辑算法,开发个人AIGC绘图小助理
使用 PAI-DSW x Free Prompt Editing图像编辑算法,开发个人AIGC绘图小助理
215 0
|
移动开发 Unix Linux
ffmpeg编译so
ffmpeg编译so
281 0
|
存储 Kubernetes 数据安全/隐私保护
影片自由,丝滑流畅,Docker容器基于WebDav协议通过Alist挂载(百度网盘/阿里云盘)Python3.10接入
使用过NAS(Network Attached Storage)的朋友都知道,它可以通过局域网将本地硬盘转换为局域网内的“网盘”,简单理解就是搭建自己的“私有云”,但是硬件和网络成本都太高了,有点可望而不可及的意思。Alist开源库则可以满足我们,它能将公共网盘反过来变成一种联网的本地硬盘,使用Web页面来统一挂载和管理,网盘类型包含但不限于:百度网盘、阿里云盘、迅雷网盘等等。
影片自由,丝滑流畅,Docker容器基于WebDav协议通过Alist挂载(百度网盘/阿里云盘)Python3.10接入
|
存储 网络协议 算法
路由选择算法总结
路由选择算法总结
537 0
|
存储 传感器 机器学习/深度学习
V2X会是未来趋势吗?看看这种轻量级方法,大幅降低碰撞概率!
本文提出了一种Ledger概念,它通过Ledger信息的广播,在一个资源预留区间(RRI)内向网络中的每辆车传递碰撞信息。碰撞车辆知道它已经与其他车辆相撞,并将在下一个 SPS 期间重新选择。除此之外,其他协议都遵循 SPS。通过引入 Ledger,虽然牺牲了14.29% 的资源,但最终可以降低碰撞概率。本文使用蒙特卡罗模拟器对Ledger系统的性能进行了验证和分析。数值结果表明,遵循 SPS 协议,Ledger 系统可以使碰撞概率在一定数量 RRI 后收敛到零。
V2X会是未来趋势吗?看看这种轻量级方法,大幅降低碰撞概率!
|
机器学习/深度学习 算法 TensorFlow
端智能实践分享:模型评估和编译
在开始端智能技术工程实践的介绍前,有一个无法绕过的问题:端上的计算能力到底如何?虽然我们对神经网络运算加速有所耳闻,也知道不同的移动设备有着不同的加速方案,但没有一个定量的分析很难让我们有一个清晰客观的认识。
886 0
端智能实践分享:模型评估和编译
|
Kubernetes Linux 测试技术
【Docker】基于Rancher快速部署docker容器管理平台
【Docker】基于Rancher快速部署docker容器管理平台
1093 0
【Docker】基于Rancher快速部署docker容器管理平台
|
jenkins Java 持续交付
jenkins持续集成从0入门到实战【十】jenkins集群多节点
在实际工作中,如果Job非常多且构建频繁,`jenkins`的服务在效率上很难够支持。所以这种情况下我们更多的是采用1主多从的方式去进行构建,master节点主要做任务分发和调度,实际构建job的是slave节点,这时候我们就需要创建主从节点。
674 0
jenkins持续集成从0入门到实战【十】jenkins集群多节点