英伟达Tesla P100超级计算机组件全面登陆PCIe总线

简介:

英伟达公司已经推出了其Tesla P100加速芯片,采用PCIe卡形式且可接入标准服务器节点以支持人工智能与超级计算机级别的工作负载处理工作。

P100公布于今年4月在加利福尼亚州召开的英伟达GPU技术大会上:这款16纳米FinFET图形处理器在一块600平方毫米晶片上容纳有150亿个晶体管。其设计目标在于每秒实现万亿级别计算,适用软件包括神经网络训练以及天气与粒子模拟。这款GPU采用英伟达的Pascal架构,能够实现CPU与GPU之间的页面迁移。

每块P100包含4个每秒40 GB英伟达NVLink端口,分部接入GPU集群。NVLink为英伟达公司设计的高速互连机制。IBM公司的Power8+与Power9处理器皆支持NVLink,允许主机的Power CPU核心直接与各GPU相对接。

这些来自蓝色巨人的芯片主要服务于美国政府所拥有的各超级计算机及其它高负载设备。不过在民用领域,我们普遍使用x86处理器支撑后端工作负载。

时至今日,数据中心内的绝大部分计算处理器由英特尔公司提供;然而英特尔方面并不支持英伟达的NVLink,而且似乎也没有在这方面做出努力的计划。因此,英伟达方面拿出了自己的解决办法,即PCIe版本的Tesla P100卡,帮助服务器构建人员将加速处理器同其x86设备相结合。这意味着GPU能够通过NVLink实现彼此间的高速通信,同时经由PCIe总线接入主机CPU。

目前PCIe P100分为两种型号:其一HBM2堆栈内存为16 GB且内存传输带宽为每秒720 GB;其二成本更为低廉,HBM2内存为12 GB且内存传输带宽为每秒540 GB。二者皆采用PCIe gen-3 x 16通道以实现每秒32 GB传输能力。

二者在处理64位双精度运算与32位单精度运算时的持续性能水平分别为4.7万亿次与9.3万亿次;16位半精度运算则为18.7万亿次。这一水平略低于原始P100在双、单与半精度运算中的5.3万亿次、10.6万亿次与21万亿次。原因在于,PCIe卡的性能由于发热量的考虑而必须有所牺牲——毕竟我们不希望塞满了GPU加速节点的机架由于全力运转而被融化。

另外,NVLink P100的额定功率为300瓦,而其16 GB PCIe表亲的功率水平为250瓦,12 GB版本的功耗则更低。

顺带一提,如果大家希望在非NVLink服务器上使用全速、全功率Tesla P100,其实也是能够实现的:系统制造商能够在主机上添加PCIe gen-3接口,从而实现额外的性能提升。不过如果大家只希望使用PCIe,那么目前的低功耗、低性能PCIe选项已经非常理想。

“PCIe P100将成为主力系统——即大规模计算设备,”英伟达公司高级产品经理Roy Kim在接受采访时表示。他同时建议称,每个服务器节点可以接入4到8块该PCIe卡。

这些PCIe设备预计将在2016年第四季度正式推出,且面向克雷、戴尔、惠普、IBM以及其它英伟达合作伙伴发布。其最终定价将取决于经销商,但根据我们得到的消息,其价格会与目前的英伟达K80基本持平——后者的售价约为4000美元。

而在价值层面,英伟达方面告诉我们,P100 PCIe卡将在今年晚些时候作为欧洲各顶级超级计算机的构建组件,其中包括位于瑞士卢加诺国家超级计算中心的Piz Daint。
本文转自d1net(转载)

相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
相关文章
|
3月前
|
存储 Ubuntu 安全
在Ubuntu 16.04上安装openjdk-6/7/8-jdk的步骤
在整个安装过程中,你可能需要管理员权限,因此你可能要使用 `sudo` 来获取必要的权限。记得做完每一个步骤后,都要检查输出,以确保没有发生错误,并且每项操作都成功完成。如果在安装过程中遇到问题,查看 `/var/log/` 下的日志文件对于问题的解决可能是有帮助的。
218 21
|
3月前
|
Linux 虚拟化 iOS开发
VMware Workstation 17.6.4 Pro Unlocker & OEM BIOS 2.7 for Windows & Linux
VMware Workstation 17.6.4 Pro Unlocker & OEM BIOS 2.7 for Windows & Linux
994 0
VMware Workstation 17.6.4 Pro Unlocker & OEM BIOS 2.7 for Windows & Linux
|
11月前
|
敏捷开发 数据可视化 项目管理
看板办团队协作工具能提高团队效率吗?深度解析
在快节奏的工作环境中,高效的团队协作与任务管理成为企业提升效率的关键。看板作为一种流行的工具,通过可视化管理任务进度,促进团队协作,提高透明度,帮助团队成员实时了解项目状态,确保任务不遗漏,支持远程办公与跨团队合作。
135 0
看板办团队协作工具能提高团队效率吗?深度解析
|
存储 应用服务中间件 nginx
双非本24秋招之路,从考研跑路到大厂上岗(无实习、项目)
双非本24秋招之路,从考研跑路到大厂上岗(无实习、项目)
|
开发工具 git
git push origin master提交报错解决办法
git push origin master提交报错解决办法
534 0
|
编解码 iOS开发 MacOS
解放双手,提高生产力,看我如何用 Python 实现自动化剪视频
人类和动物最本质的区别就是人类懂的制造并使用工具,这是由上古时代一直延续至今的基因所决定的。 前段时间朋友的一个业务需要大量的原创短视频,问我是否可以帮忙弄下,我了解了具体需求之后发现不需要很高质量的内容,操作也不是很复杂,完全可以通过 Python 实现自动化操作,也是就把这个事给应承了下来。
718 0
解放双手,提高生产力,看我如何用 Python 实现自动化剪视频
|
13天前
|
存储 弹性计算 人工智能
【2025云栖精华内容】 打造持续领先,全球覆盖的澎湃算力底座——通用计算产品发布与行业实践专场回顾
2025年9月24日,阿里云弹性计算团队多位产品、技术专家及服务器团队技术专家共同在【2025云栖大会】现场带来了《通用计算产品发布与行业实践》的专场论坛,本论坛聚焦弹性计算多款通用算力产品发布。同时,ECS云服务器安全能力、资源售卖模式、计算AI助手等用户体验关键环节也宣布升级,让用云更简单、更智能。海尔三翼鸟云服务负责人刘建锋先生作为特邀嘉宾,莅临现场分享了关于阿里云ECS g9i推动AIoT平台的场景落地实践。
【2025云栖精华内容】 打造持续领先,全球覆盖的澎湃算力底座——通用计算产品发布与行业实践专场回顾
|
4天前
|
云安全 人工智能 安全
Dify平台集成阿里云AI安全护栏,构建AI Runtime安全防线
阿里云 AI 安全护栏加入Dify平台,打造可信赖的 AI