Mellanox OFED2.1-X安装记录

简介: ---恢复内容开始--- 1,tcl,tk,gcc-gfortran,libnl-devel依赖包 配置个163yum源 具体见博客 http://www.cnblogs.com/ruiy/p/local-yum.html yum -y install tk tcl gcc-gfortran libnl-devel Linux OFED-user-manual 22页 两个版本的MPI MVAPICH(被俄亥俄俄州大学开发) 俄亥俄州教授D.K.Panda 发布了MVAPICH 1.8,支持GPU集群的通用、高性能的MPI。

---恢复内容开始---

1,tcl,tk,gcc-gfortran,libnl-devel依赖包

配置个163yum源

具体见博客

http://www.cnblogs.com/ruiy/p/local-yum.html

yum -y install tk tcl gcc-gfortran libnl-devel

Linux OFED-user-manual 22页

两个版本的MPI

MVAPICH(被俄亥俄俄州大学开发)

俄亥俄州教授D.K.Panda 发布了MVAPICH 1.8,支持GPU集群的通用、高性能的MPI。MVAPICH2简化MPI应用程序移植与NVIDIA GPU集群运行,并支持标准MPI调用GPU设备内存任务它以最佳方式优化了主机和GPU之间、GPU和GPU之间数据移动,而应用程序开发人员角度只需付出很少的努力,甚至不需要 MVAPICH2以为使用Infiniband10GigE/iWARPROCE网络的高性能集群提供优秀扩展容错著称
相关信息可参看http://developer.nvidia.com/mvapich 网页和俄勒冈州立大学的支持GPU基准测试
信息。

主要特点:
  • 高性能的基于RDMA的节点间的MPI至点通信GPU-GPUGPU-Host,Host-GPU
  • 高性能节点内MPI至点的多GPU通信GPU-GPUGPU-Host,Host-GPU
  • 优化和调整 GPU设备内存的MPI集体通信
  • MPI的数据类型的支持GPU设备内存的点至和集体通信
  • 节点多GPU卡通信使用了CUDA IPCCUDA4.1 支持 IPC
  • 使用CUDA事件为流水线数据的内存数据GPU传输的高效同步机制

性能:参见http://mvapich.cse.ohio-state.edu/performance/gpu.shtml

MPI

PUE(Power usage efficiency)

TCO(Total Cost Of Ownership)

http://blog.csdn.net/cwg_1992/article/details/18314141

 

 

---恢复内容结束---

1,tcl,tk,gcc-gfortran,libnl-devel依赖包

配置个163yum源

具体见博客

http://www.cnblogs.com/ruiy/p/local-yum.html

yum -y install tk tcl gcc-gfortran libnl-devel

Linux OFED-user-manual 22页

两个版本的MPI

MVAPICH(被俄亥俄俄州大学开发)

俄亥俄州教授D.K.Panda 发布了MVAPICH 1.8,支持GPU集群的通用、高性能的MPI。MVAPICH2简化MPI应用程序移植与NVIDIA GPU集群运行,并支持标准MPI调用GPU设备内存任务它以最佳方式优化了主机和GPU之间、GPU和GPU之间数据移动,而应用程序开发人员角度只需付出很少的努力,甚至不需要 MVAPICH2以为使用Infiniband10GigE/iWARPROCE网络的高性能集群提供优秀扩展容错著称
相关信息可参看http://developer.nvidia.com/mvapich 网页和俄勒冈州立大学的支持GPU基准测试
信息。

主要特点:
  • 高性能的基于RDMA的节点间的MPI至点通信GPU-GPUGPU-Host,Host-GPU
  • 高性能节点内MPI至点的多GPU通信GPU-GPUGPU-Host,Host-GPU
  • 优化和调整 GPU设备内存的MPI集体通信
  • MPI的数据类型的支持GPU设备内存的点至和集体通信
  • 节点多GPU卡通信使用了CUDA IPCCUDA4.1 支持 IPC
  • 使用CUDA事件为流水线数据的内存数据GPU传输的高效同步机制

性能:参见http://mvapich.cse.ohio-state.edu/performance/gpu.shtml

MPI

PUE(Power usage efficiency)

TCO(Total Cost Of Ownership)

http://blog.csdn.net/cwg_1992/article/details/18314141

 

 

相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
目录
相关文章
|
人工智能 缓存 调度
技术改变AI发展:RDMA能优化吗?GDR性能提升方案(GPU底层技术系列二)
随着人工智能(AI)的迅速发展,越来越多的应用需要巨大的GPU计算资源。GPUDirect RDMA 是 Kepler 级 GPU 和 CUDA 5.0 中引入的一项技术,可以让使用pcie标准的gpu和第三方设备进行直接的数据交换,而不涉及CPU。
138889 6
|
Java
手动将多个Jar包合并成1个Jar包
手动将多个Jar包合并成1个Jar包
472 0
|
Ubuntu Linux
【问题复盘】在Ubuntu 20.04下安装OFED驱动 复盘:在Ubuntu 20.04下安装OFED驱动
整个问题主要是由于不同的内核版本导致文件路径不同,进而导致安装过程中某些库无法按预期安装而出现问题。 为什么使用最新的OFED驱动解决了问题呢?推测是最新驱动补充了之前缺失的某些文件,因此后续安装过程能够正常进行。 例如,在OFED 5.4中,某个安装所需的文件F位于A处,但安装程序却在B处查找该文件,导致报错。而在OFED 5.8中,该安装所需的文件F被移回到B处,此时不管去哪里查找都能找到文件F,因此安装可以正常进行。
1265 0
|
存储 编解码 网络协议
阿里云目前活动中各实例规格性能、指标数据、适用场景及选择参考
很多新手用户初次通过阿里云各种活动购买云服务器的时候,面对各种不同的实例规格,往往不知道应该怎么选,目前在阿里云的活动中,除了轻量应用服务器之外,活动内的云服务器实例规格主要以经济型e、通用算力型u1、计算型c7/c8y、通用型g7/g8y、内存型r7/r8y这几个实例规格为主,不同的云服务器实例规格在性能特点、适用场景等方面均有所差异。本文将详细介绍阿里云目前活动中常见的实例规格及其性能特点、适用场景,帮助用户更好地选择适合自己的云服务器配置。
阿里云目前活动中各实例规格性能、指标数据、适用场景及选择参考
|
存储 人工智能 弹性计算
通义万相AI绘画创作评测及图文搭建教程
【7月更文挑战第4天】阿里云的通义万相是AI绘画模型,结合ECS、OSS和API服务,提供无缝创作环境。用户上传图片至OSS,模型通过签名URL下载图片,然后生成AI艺术作品。模型服务具有高性能、易集成的特点,适用于多种场景如设计、广告等。用户可按指示在阿里云官网注册、充值、开通服务并部署。项目评测显示,其集成便捷、响应快、泛化能力强,但仍有改进空间,如增加图像控制选项和批量处理能力。相对于竞品,通义万相在成本、易用性和应用场景上有竞争力,值得推荐。
12210 9
|
云计算
阿里云短信验证码平台服务收费价格表
阿里云短信验证码平台服务收费价格表,阿里云短信服务价格表,阿里云短信0.032元一条,阿里云短信价格?阿里云短信怎么收费?阿里云短信多少钱一条,阿里云短信价格0.032元一条
1016 0
|
网络协议
【qt】TCP的监听 (设置服务器IP地址和端口号)
【qt】TCP的监听 (设置服务器IP地址和端口号)
837 0
|
存储 算法 搜索推荐
倚天性能优化—ptg-optimize高性能基础库
ptg-optimize为平头哥数据中心解决方案团队开发的一款高性能库,该高性能库借助倚天的硬件架构优势,通过算法设计优化、SIMD向量化、指令优化等,实现包括mem、string、crc32、crypto、spinlock、等20+常用接口的性能优化,mem/string/spinlock等常用接口对标glibc 2.32,crc32/crypto等接口对标业务常用标准化接口。经测试,当前版本优化接口平均性能提升超过50%,性能优化效果显著,集成使用便捷,已为包括集团ebs存储、tair、rds数据库等多种场景提供应用性能加速。
倚天性能优化—ptg-optimize高性能基础库
|
缓存 Oracle Java
Java中间件(1)--分布式系统&中间件从入门到精通(五)
Java中间件(1)--分布式系统&中间件从入门到精通(五)
|
存储 Python
python及pygame雷霆战机游戏项目实战10 爆炸效果
python及pygame雷霆战机游戏项目实战10 爆炸效果
467 0