深度点评:如何看待美国超算Summit超过神威太湖之光,500 强榜单中排名第一?

简介: 在最近的超算排行榜上,美国超算Summit和Astra重回榜首,意味着什么?他们是怎么重回榜首的?中国的超算又是怎么起步并发展起来的?还需要了解,中国未来的超算之路要怎么走,中国超算存在的问题在哪儿。这些问题,本文将一一回答。

科技头条日前发布信息:
[美国超算将重夺第一,被称世界最强大的计算机!]
[美国新公布超级计算机“Astra”,基于ARM处理器打造]

但消息背后,很多朋友都在讨论:近期美国发出过芯片限制令,禁止英特尔、英伟达出口芯片用于中国的超级计算机。这和此次美国夺得超算第一有没有相关性?超算的实力多大程度上代表了科技水平?

为此,中科院计算所并行软件实验室主任、博士生导师张云泉老师特别撰写文章进行回复。

下为正文:

要想回答第一个问题,我们就需要了解下,在最近的超算排行榜上,美国多年后重回榜首,意味着什么?他们是怎么重回榜首的?中国的超算又是怎么起步并发展起来的?

还需要了解,中国未来的超算之路要怎么走,中国超算存在的问题在哪儿。

image

我们一个个来说。

超算TOP500每年发布两次,我们国家的天河2号和太湖之光,分别六次和四次拿到冠军,一共十次,相当于连续五年占据了TOP500的冠军位置。

image

美国政府为此很着急。

之前由于奥巴马政府对超算不够重视,奥巴马只是在第二个任期快结束的时候才发布了一项总统令,加快超算研制的创新步伐。 而特朗普就任以后,却对超算极其重视,在砍掉了很多科学研究预算的情况下,超算的预算不但没砍,反而增加了。

几年前,美国部署了三台百P(相当于十亿亿次)量级的超级计算机,每秒的运算速度可以达到100P到200P左右,分别是Summit、Sierra、Aurora三台机器。目标有三个:第一当然是为美国的国家实验室研发世界领先的超级计算模拟系统,保持美国科学创新的领导地位;第二是希望保持美国在超级计算机研制上的技术优势和领先水平;第三就是希望把TOP500第一的位置夺回来。

为此美国大概拨款了5个亿美元的预算,计划在2018年年底推出第一台机器,重返Top500榜首。

但是美国终究无法继续容忍中国再霸占世界TOP500的冠军位置半年,将原来的计划提前了半年,于今年6月份就调整计划推出了Summit、Sierra两台机器,作为双保险争夺世界第一,Summit直接将峰值性能提升到200P,终于如愿夺回世界第一的位置,美国也松了一口气,重新找到老大的感觉。

其实,美国最早是想用峰值180P的Aurora来作为种子选手争夺世界第一的,但是由于英特尔负责研制的新Xeon Phil加速器无法按期完成,只好修改合同,直接去研发2021年完成的百亿亿次超级计算机A21。

image

而中国的超算此前是怎么夺得多次冠军的呢?中国在超算领域的实力到底怎么样?存在哪些问题?

如果画一条中国超算的性能发展曲线的话,可以看到,中国的超算实际上是从一穷二白做起的。在2002年之前,TOP500上就没有中国的超算,或者说中国超算本身就很少。从2002年之后,经过15年的高速发展,中国超算的上榜数量,包括性能都是指数级增长,以旱地拔葱的方式一跃而起。

image

原来是美日欧三大集团瓜分世界超算TOP500的前三名,像马拉松一样,他们平稳地跑在第一方阵。而中国就属于从队尾直接冲到了第一方阵中的选手,我们超过了第三名的欧盟,超过了第二名的日本,最后又超过了美国,成为世界第一。15年的时间很不容易,从一穷二白到最后成为世界第一,中国超算机器的研发水平,现在确实是世界领先的,处在第一方阵的靠前水平。

中国超算走过了一条比较特殊的路,就是机器发展拉动应用需求,也就是说我们机器的水平是超过了应用需求的。这是一种政府主导的快速发展模式。这个路现在是比较成功的。我们机器发展比较快,也带动应用的水平快速提升。但是未来我们希望能够用5到10年的时间,把这种发展模式转变成应用需求来拉动机器发展,这样更科学更合理。这种发展模式,也是西方发达国家现在的发展模式。

现在来看,我们已经连续两年拿了戈登贝尔奖(编者注:该奖设立于1987年,主要颁发给高性能应用领域最杰出成就,通常会由当年TOP500排行名列前茅的计算机系统的应用获得),说明应用水平提高还是很快的!

image

近五年来,中国占据了TOP500的榜首,原因之一是我们的发展道路(机器发展拉动应用需求),但是也有运气成分,因为正好处在美日欧的低潮期。

在这五年里,美日欧的研制计划都比较弱。日本国内对于要不要拿TOP500世界第一也有一些分歧,结果日本国会没有拨款,所以日本的研发计划一再拖延。欧盟是因为它本身没有实力自己研制,只能购买美日等国的产品。美国是因为正好处在奥巴马政府不重视的时期,预算被调整,本身的研制周期也出了问题。

所以我们找到个空档,打了胜仗,这是难得遇到的历史机遇。

image

同时,我们必须看到并承认中国超算存在的问题。

我们也面临很多的困扰,我们的机器发展比较快,但是相应的应用和软件研制这块有点滞后,没有完全跟上,可能有投资原因,还有各种人才培养周期的原因。但是现在我们也在积极的解决这些问题,后期国家对软件研发、对人才的培养都加大了投资力度。这些问题还需要5到10年的时间去解决,达到平衡状态。

而比这次Summit拿下冠军更值得关注的,我认为是新一代的百亿亿次竞争。

美国这次虽然拿了第一,但与中国的太湖之光所釆用的体系架构相比,并没有本质的区别。太湖之光的峰值是125P,美国的Summit是187P,没有量级上的性能差别。只是说由于Summit的投资力度大、研发时间晚,采用了新的工艺和技术,它的峰比太湖之光高一些,但是其在架构和技术上并没有拉开差距。

现在全球的各个国家又重视超算了,都在重新调整战略。新一代的百亿亿次竞争就会从2020年开始。到底哪个国家先做出来?

百亿亿次超级计算机的最大的问题就是功耗控制,需要在半导体工艺上有很大的突破,才有可能把功耗控制在30兆瓦左右。如果说功耗控制没有发生革命性的降低,以现在的技术去搭建的话,它的功耗可能会达到一百兆瓦,就没法用了。电费也太贵,1年的电费相当于十亿人民币。所以国际上的竞争就是看谁有本事在30兆瓦的功耗预算的前提下,能够造出百亿亿次超级计算机,这个是目前最大的挑战。

中美的超算竞争还将继续。

最后回应一个说法。

美国重回超算排名榜首的新闻发布后,很快有消息说,别担心,中国9月份就可以重回TOP500的榜首了。

这个绝对是谣言。中国至少在今年是不可能重回TOP500榜首的。美国会占据排行榜第一名的位置大概至少两年的时间,蝉联四次冠军是有可能的。

至于在2020年有没有可能?也许有可能。

我国的计划应该是在2020年左右,凭借百亿亿次超级计算机重新去夺回世界第一的位置。但是能不能夺回来,也很难说,因为美国、日本、欧盟也在强化研制下一代的超级计算机,他们都是计划在2021年左右推出,到底最后第一是谁还不一定。

image

原文发布时间为:2018-07-03
本文作者:张云泉

相关文章
|
Kubernetes Linux API
[没接触过kubevirt?]15分钟快速入门kubevirt
什么是kubevirt? kubevirt是一个容器方式运行虚拟机的项目。`kubevirt`是附加`kubernetes`集群上的,它是通过 `CustomResourceDefinition(CRD)`部署到`Kubernetes API`变成资源对象。使用方式类似创建`deploy、pod`......这些资源清单。
5267 0
[没接触过kubevirt?]15分钟快速入门kubevirt
|
7月前
|
存储 人工智能 自然语言处理
AI 剧本生成与动画创作解决方案评测
用了阿里云的 AI 剧本生成与动画创作解决方案后,我感觉 AI 在内容创作领域真的很有潜力。这个方案不仅简化了动画创作流程,降低了技术门槛,还提高了内容生产的速度和质量。虽然在内容多样性和交互体验上还有提升空间,但总体来说,它是个实用又高效的解决方案,能满足实际生产需求,给创作者带来全新的体验。
197 5
|
2月前
|
API 开发工具 Android开发
qq虚拟视频插件下载安装手机版, 安卓虚拟视频插件,替换摄像头工具
Xposed入口模块:拦截目标应用的相机调用‌23 Camera1 API处理:通过PreviewCallback替换视频流‌1 Camera2 API适
|
12月前
|
开发者 Python
Python POST 请求超时配置
Python POST 请求超时配置
178 1
|
7月前
|
数据采集 机器学习/深度学习 人工智能
全球十亿级轨迹点驱动,首个轨迹基础大模型来了
在人工智能和大数据背景下,南方科技大学等机构提出了一种名为UniTraj的新型轨迹基础大模型。该模型通过学习全球大规模、高质量的轨迹数据,实现对人类移动模式的普遍适用性和可扩展性。UniTraj具备任务自适应性、区域独立性和数据质量鲁棒性的特点,解决了现有方法的任务特定性、区域依赖性和数据敏感性问题。研究人员还构建了包含2.45亿条轨迹的WorldTrace数据集,以支持模型训练和评估。实验结果表明,UniTraj在多个轨迹分析任务上表现出显著优势,为轨迹建模领域带来重要突破。论文地址:https://arxiv.org/pdf/2411.03859。
296 6
|
7月前
|
域名解析 人工智能 弹性计算
基于Knative快速部署DeepSeek-R1
本文以DeepSeek-R1模型、GPU类型为A10卡为例,介绍如何在Knative中快速部署一个DeepSeek-R1推理服务。
|
10月前
|
人工智能 JSON 自然语言处理
AppFlow全面支持Qwen2.5开源版无代码调用
Qwen2.5是阿里云推出的大型语言模型,无需编码即可快速体验。该模型基于最新大规模数据集训练,支持超29种语言,显著提升了知识量、编码及数学能力,特别是在指令遵循、长文本生成、结构化数据理解和生成等方面。通过AppFlow,Qwen2.5可轻松集成至钉钉机器人等应用,实现智能化交互。
354 4
|
11月前
|
域名解析 网络协议 索引
分享|【红猫网】备案域名的二级分发:实现网站可迁移、流量分流、备份归档
本文介绍了如何利用备案域名的二级分发技术实现网站迁移、流量分流和备份归档。通过为主域名下的子域名设置独立解析记录,实现资源的灵活分配与管理,确保网站服务的稳定性和高效性。同时,文章还解答了关于备案、SEO优化及HTTPS支持的相关问题。
770 0
|
传感器 数据采集 运维
ERP系统中的生产线监控与异常处理解析
【7月更文挑战第25天】 ERP系统中的生产线监控与异常处理解析
537 8
|
SQL 安全 网络安全
Victor CMS v1.0 SQL 注入(CVE-2022-26201)
Victor CMS v1.0 SQL 注入(CVE-2022-26201)