移植该选GPU还是MIC

简介:
GPU和MIC是目前两个流行的异构计算平台,二者在市场上的地位类似。如果当下有一个fortran程序,是该选择移植到GPU上还是MIC上呢?
个人推荐:GPU要优于MIC。
首先,我们来看下GPU和MIC的单机linpack结果:
153513jpm6eui6ez6pcupe.png
该测试的GPU为K40m,MIC为31S1P(天河2号专用卡)
从这个测试结果上看,MIC的linpack测试性能似乎略胜于GPU。

其次,从编译器的软件环境来看,CUDA FORTRAN的编译器为PGI,MIC的编译器为intel fortran,两款编译器对于fortran语言标准的支持有细微差别,
从移植的角度来说,如果原来的程序是用的intel的,移植选择intel的编译器可能要少些麻烦。除此以外,intel的编译器是免费的,PGI是收费的,而且
费用还不低,如果单买PGI的fortran,需要5000rmb,同时购买PGI C和fortran,估计价格约为1万rmb。幸运的是,PGI推出了社区版本,可以免费试用1年。

从支持的库来看,MIC支持intel的MKL,而在GPU上的fortran库只有CULA,且CULA目前停止更新。当然可以通过fortran调用C的方式来调用其他的C
版本的库,前提是PGI最好连C版本一起买了。

从使用的难易程度来看,MIC的接口很容易,形似openMP,fortran使用GPU的方式有两种,一种CUDA FORTRAN,一种OPENACC。如果希望能深层次的
优化的话,CUDA FORTRAN更好一些。代价就是,增加了移植的难度。

从debug的角度来说,CUDA有支持的图形化界面nvvp和命令行nvprof,而对于MIC来说,debug则显得不方便,因为接口封装的比较完美,底层不易触及。

最后,我阐述下个人使用GPU和MIC的感受,对于GPU来说,固然有编写代码和优化的难题,但是,其效果是明显和可预期的,只要并行度高的程序总能
有加速比。而MIC表面上使用简单,但真到用起来了也是“谁用谁知道”,简单概况有两大坑:第一,接口的坑。明明一个很简单的类似openmp的接口语句,
就是给你报错,报的莫名其妙,而且debug起来也是头疼不已。第二,性能的坑。linpack测试的结果很喜人,实际用起来就不咋地,有时候不一定加速,甚至
减速也是有可能的。

总之,GPU目前来说更成熟更稳定,MIC的发展要晚于GPU,缺陷较多。希望对疑惑于选择GPU还是MIC的同学们有些帮助。

原文发布时间为: 2016-12-19 16:07:45
原文由:LGZ 发布,版权归属于原作者 
本文来自云栖社区合作伙伴NVIDIA,了解相关信息可以关注NVIDIA官方网站
相关实践学习
基于阿里云DeepGPU实例,用AI画唯美国风少女
本实验基于阿里云DeepGPU实例,使用aiacctorch加速stable-diffusion-webui,用AI画唯美国风少女,可提升性能至高至原性能的2.6倍。
目录
相关文章
|
1月前
|
存储 算法 编译器
|
6月前
|
人工智能 并行计算 openCL
魔搭+Xinference 平台:CPU,GPU,Mac-M1多端大模型部署
随着 Llama2 的开源,以及通义千问、百川、智谱等国内大模型的问世,很多用户有了本地部署去尝试大模型的需求,然而硬件的需求阻碍了很多人的尝试,并不是所有人都拥有一块英伟达显卡的,所以 Llama2 问世不久,大神 Andrej Karpathy 的一个 weekend project 爆火——llama2.c。
魔搭+Xinference 平台:CPU,GPU,Mac-M1多端大模型部署
|
8月前
|
人工智能 弹性计算 并行计算
单GPU运行数千环境、800万步模拟只需3秒,斯坦福开发超强游戏引擎
单GPU运行数千环境、800万步模拟只需3秒,斯坦福开发超强游戏引擎
355 0
|
7月前
|
C语言 Python Windows
MicroPython 玩转硬件系列2:点灯实验
MicroPython 玩转硬件系列2:点灯实验
|
11月前
|
人工智能 语音技术 开发者
真·ChatGPT平替:无需显卡,MacBook、树莓派就能运行LLaMA
真·ChatGPT平替:无需显卡,MacBook、树莓派就能运行LLaMA
276 0
|
数据处理 数据安全/隐私保护 SoC
DSP+ZYNQ硬件说明手册-XQTyer【开源】
XQ6657Z35/45-EVM 高速数据处理评估板(XQTyer 评估板)由广州星嵌电子科技有限公司自主研发,包含一片TI DSP TMS320C6657和一片Xilinx ZYNQ-7000 SoC 处理器XC7Z035-2FFG676I。适用于无人机蜂群、软件无线电系统,基带信号处理,无线仿真平台,高速图像采集、处理等领域。
DSP+ZYNQ硬件说明手册-XQTyer【开源】
|
机器学习/深度学习 编解码 并行计算
我的NVIDIA开发者之旅——优化显卡性能
我的NVIDIA开发者之旅——优化显卡性能
342 0
我的NVIDIA开发者之旅——优化显卡性能
|
人工智能 并行计算 Ubuntu
英伟达正式宣布开源 GPU 内核模块代码
近日,英伟达(NVIDIA)宣布,将 Linux GPU 内核模块作为开放源代码发布。早在几天前,NVIDIA 开始在 GitHub 上陆续公开相关代码,目前该项目已经收获 7.7k star,众多网友对本次开源纷纷表示难以置信。
284 0
英伟达正式宣布开源 GPU 内核模块代码
|
算法 openCL 异构计算
AMD力挺OpenCL 用GPU打造通用计算神话
本文讲的是AMD力挺OpenCL 用GPU打造通用计算神话,日前,中国高性能计算年会在长沙召开,展会公布了2009年最新的中国TOP 100,国防科技大学研制的天河一号超级计算机以1 PFlops(千万亿次)的计算速度夺得了中国超算排行榜的第一名。
1749 0