在机器学习领域的华山论剑中,Google 打败了英伟达

简介: 帮助 Google 胜出的,是 Cloud TPU v3 Pod。

雷锋网消息,2019 年 7 月 11 日,Google 宣布旗下的 Google Cloud Platform(GCP)在最新一轮的 MLPerf 基准竞赛中创造了三个新的表现记录,这三个记录都是基于 Cloud TPU v3 Pod 实现的。

Google 表示,利用 Cloud TPU Pod 的强大速度,这三个记录用了不到两分钟的计算时间就得以完成。

MLPerf:机器学习领域的华山论剑

MLPerf 是 2018 年 5 月由 Google、百度、Intel、AMD、哈佛大学和斯坦福大学等企业和学术机构联合发布的一款基准测试工具,它的用处是用来测量机器学习软件和硬件的执行速度,获得了吴恩达和 Google 机器学习负责人 Jeff Dean 的强烈推荐。

TB12WkBXHj1gK0jSZFuXXcrHpXa.jpg

针对 MLPerf 的发布,吴恩达声明称:

AI 正在给各个行业带来改变,但为了充分这项技术的真正潜力,我们仍然需要更快的硬件与软件……我们当然希望获得更强大的资源平台,而基准测试方案的标准化进程将帮助 AI 技术开发人员创造出此类产品,从而帮助采用者更明智地选择适合需求的 AI 选项。

Jeff Dean 也在 Twitter 上表示,Google 很高兴与众多大学和企业一起,成为致力于将 MLPerf 作为衡量机器学习性能的通用标准的组织之一。

MLPerf 项目的主要目标包括:

通过公平且实用的衡量标准加快机器学习发展进程。对各竞争系统进行公平比较,同时鼓励创新以改善业界领先的机器学习技术。保持基准测试的成本合理性,允许所有人参与其中。为商业及研究社区提供服务。提供可重复且可靠的测试结果。

在具体的测试项目上,MLPerf 覆盖了视觉、语言、商业和通用四大领域,包含七项基准测试方案。每个 MLPerf 训练基准测试的度量标准是:在特定数据集上训练一个模型使其达到特定性能的总体时间。众所周知,机器学习任务的训练时间有很大差异,因此,MLPerf 的最终训练结果是由指定次数的基准测试时间平均得出的,其中会去掉最低和最高的数字。

MLPerf 的结果根据专区和给定的产品或平台进行分类,目前有两种专区,即封闭专区(Closed Division)和开放专区(Open Division)。其中封闭专区会指定使用的模型,并限制批量大小或学习率等超参数的值,它对于对比硬件和软件系统非常公平。

英伟达成为第一回合最大赢家

2018 年 12 月 12 日,支持 MLPerf 的研究者和工程师们公布了第一个回合的竞赛结果,其中测量了多种机器学习任务在主流机器学习硬件平台上的训练时间,包括 Google 的 TPU、英特尔的 CPU 和英伟达的 GPU。其测试基准如下:  

TB1bVUBXHH1gK0jSZFwXXc7aXXa.png

通过这次竞赛,MLPerf 产生了封闭专区 V0.5 版本,其结果如下:  

TB12dkxXF67gK0jSZPfXXahhFXa.png

从结果来看,英伟达在其提交的六个 MLPerf 基准测试结果中取得了最佳性能,其中包括图像分类、目标实例分割、目标检测、非循环翻译、循环翻译和推荐系统——从而成为最大赢家。

利用 Cloud TPU v3 Pod,Google 五局三胜

2019 年 7 月 10 日,MLPerf 第二回合的竞赛结果公布,其测试标准如下:

TB13eAzXSf2gK0jSZFPXXXsopXa.png

 基于这轮竞赛结果的封闭专区 V0.6 版本如下:

TB1Xv7zXQT2gK0jSZFkXXcIQFXa.png

可以看到,根据 MLPerf 封闭专区 0.6 版本所呈现的结果,在基于 Transformer 和 SSD 模型的基准测试项目中,Google Cloud TPU 比英伟达预置 GPU 的最佳表现高出了超过 84%。另外,基于 ResNet-50 模型,Google Cloud TPU 也比英伟达预置 GPU 略微胜出。

TB1InozXKL2gK0jSZFmXXc7iXXa.png

在本次竞赛中,帮助 Google 胜出的,是 Cloud TPU v3 Pod。

Cloud TPU v3 Pod 是 Google 推出的第三代可扩展云端超级计算机,其核心特征就是内置了 Google 自主打造的 TPU 处理器。2019 年 5 月,Google 在 I/O 开发者大会上宣布了它的测试版并进行了公开预览。

TB15iQAXND1gK0jSZFsXXbldVXa.png

据雷锋网了解,每一个 Cloud TPU 最高可包含 1024 个单独的 TPU 芯片,这些芯片通过二维环形网状网络连接,TPU 软件堆栈使用该网络通过各种高级 API 将多个机架作为一台机器进行编程;用户还可以利用 Cloud TPU Pod 的一小部分,称为“切片”。

TB1inIzXKP2gK0jSZFoXXauIVXa.gif

Google 方面表示,最新一代 Cloud TPU v3 Pod 采用了液冷式设计,可实现最佳性能;每一个都提供超过 100 petaFLOP 的计算能力;Google 也号称,就每秒原始数学运算而言 Cloud TPU v3 Pod 与全球五大超级计算机相当,尽管它的数值精度较低。

借着这次在 MLPerf 第二次结果中出风头的机会,Google 也不忘在官网推介一下 Cloud TPU v3 Pod 的最新进展。比如说,Recursion Pharmaceuticals 是一家运用计算机视觉技术来处理细胞图像,通过分析细胞特征来评估疾病细胞药后反应结果的公司;以往该公司在通过本地 GPU 训练模型时需要 24 小时,但利用 Cloud TPU Pod,只需要 15 分钟就可以完成。

当然,在雷锋网(公众号:雷锋网)看来,作为一个典型的技术派,Google 之所以如此着力推进 Cloud TPU 的进展,当然也是希望有更多的开发者参与其中——毕竟云计算是当前 Google 最为重视的业务之一。

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
目录
相关文章
|
5月前
|
机器学习/深度学习 数据采集 物联网
【机器学习】Google开源大模型Gemma2:原理、微调训练及推理部署实战
【机器学习】Google开源大模型Gemma2:原理、微调训练及推理部署实战
175 0
|
机器学习/深度学习 存储 人工智能
High&NewTech:2021 年Google谷歌 I/O 开发者大会 Kemal 等三人主题演讲分享《TensorFlow 在机器学习领域的进展》
High&NewTech:2021 年Google谷歌 I/O 开发者大会 Kemal 等三人主题演讲分享《TensorFlow 在机器学习领域的进展》
High&NewTech:2021 年Google谷歌 I/O 开发者大会 Kemal 等三人主题演讲分享《TensorFlow 在机器学习领域的进展》
|
机器学习/深度学习 传感器 人工智能
Google I/O 李飞飞等四领域女性专家,谈机器学习的过去、现在和未来
在 Google I/O 首日的 Keynote 中,Google 公布了一系列新的硬件、应用和基础研究。自去年提出 AI First 战略,今年的大会上 Google 同样安排了不少与机器学习开发相关的内容,比如《教程 | 如何使用谷歌 Mobile Vision API 开发手机》。
115 0
Google I/O 李飞飞等四领域女性专家,谈机器学习的过去、现在和未来
|
机器学习/深度学习 人工智能 机器人
Google I/O 2017:值得期待的机器学习内容有哪些?
当地时间 5 月 17-19 日,谷歌将在山景城举办 Google I/O 开发者大会。从已经公布的日程来看,人工智能、安卓、云、Chrome OS、虚拟现实和增强现实、物联网等都将在本次大会上登台亮相。其中,机器学习和 TensorFlow 将会成为本次大会上的重头戏,涉及到的主题将包括但不限于云、大数据、移动机器学习、Google Assistant 和 Magenta 等。
130 0
Google I/O 2017:值得期待的机器学习内容有哪些?
|
2月前
|
机器学习/深度学习 算法 数据挖掘
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构。本文介绍了K-means算法的基本原理,包括初始化、数据点分配与簇中心更新等步骤,以及如何在Python中实现该算法,最后讨论了其优缺点及应用场景。
116 4
|
15天前
|
算法
PAI下面的gbdt、xgboost、ps-smart 算法如何优化?
设置gbdt 、xgboost等算法的样本和特征的采样率
38 2
|
2月前
|
机器学习/深度学习 算法 数据挖掘
C语言在机器学习中的应用及其重要性。C语言以其高效性、灵活性和可移植性,适合开发高性能的机器学习算法,尤其在底层算法实现、嵌入式系统和高性能计算中表现突出
本文探讨了C语言在机器学习中的应用及其重要性。C语言以其高效性、灵活性和可移植性,适合开发高性能的机器学习算法,尤其在底层算法实现、嵌入式系统和高性能计算中表现突出。文章还介绍了C语言在知名机器学习库中的作用,以及与Python等语言结合使用的案例,展望了其未来发展的挑战与机遇。
51 1
|
2月前
|
机器学习/深度学习 自然语言处理 算法
深入理解机器学习算法:从线性回归到神经网络
深入理解机器学习算法:从线性回归到神经网络
|
2月前
|
机器学习/深度学习 人工智能 算法
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
手写数字识别系统,使用Python作为主要开发语言,基于深度学习TensorFlow框架,搭建卷积神经网络算法。并通过对数据集进行训练,最后得到一个识别精度较高的模型。并基于Flask框架,开发网页端操作平台,实现用户上传一张图片识别其名称。
105 0
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
【MM2024】阿里云 PAI 团队图像编辑算法论文入选 MM2024
阿里云人工智能平台 PAI 团队发表的图像编辑算法论文在 MM2024 上正式亮相发表。ACM MM(ACM国际多媒体会议)是国际多媒体领域的顶级会议,旨在为研究人员、工程师和行业专家提供一个交流平台,以展示在多媒体领域的最新研究成果、技术进展和应用案例。其主题涵盖了图像处理、视频分析、音频处理、社交媒体和多媒体系统等广泛领域。此次入选标志着阿里云人工智能平台 PAI 在图像编辑算法方面的研究获得了学术界的充分认可。
【MM2024】阿里云 PAI 团队图像编辑算法论文入选 MM2024

热门文章

最新文章