包揽四项世界第一,阿里云AI计算服务全球最快

简介: 近日,斯坦福大学公布了最新的DAWNBench深度学习榜单,阿里云打破谷歌等企业创造的纪录,包揽图像识别比赛的四项第一,这也意味着阿里云可提供全球最快的AI计算服务。

近日,斯坦福大学公布了最新的DAWNBench深度学习榜单,阿里云打破谷歌等企业创造的纪录,包揽图像识别比赛的四项第一,这也意味着阿里云可提供全球最快的AI计算服务。

斯坦福大学DAWNBench是人工智能领域最权威的竞赛之一,它是衡量深度学习优化策略、模型架构、软件框架、云和硬件等综合解决方案实力的标准之一。在图像识别(Image Classification on ImageNet)榜单中,阿里云包揽了训练时间、训练成本、推理延迟以及推理成本四项第一,打破了谷歌等企业保持一年多的纪录。

image


(阿里云包揽训练时间、训练成本、推理延迟以及推理成本四项第一)

DAWNBench官方显示,阿里云异构计算服务训练ImageNet 128万张图片仅需2分38秒,基于含光800的AI服务识别一张图片仅需0.0739ms,同时在训练成本和推理成本上也实现世界纪录的突破。

据悉,此次阿里云创造四项纪录得益于阿里云自研加速框架AIACC及平头哥含光800。AIACC是阿里云自主研发的飞天AI加速引擎,首次实现了统一加速Tensorflow、PyTorch、MxNet和Caffe等主流深度学习框架,在相同的硬件平台下,AIACC能够显著提升人工智能训练与推理的性能。

含光800是阿里巴巴第一颗自研芯片,也是全球性能最强的AI推理芯片,性能及能效比全球第一,基于含光800的AI云服务每秒可实现1600万亿次级别深度学习计算。

近年来,深度学习模型越来越复杂,所需的计算资源和计算时间也大幅增加,昂贵的AI算力制约了AI应用的落地,提升性能、降低成本成为企业的重中之重。

阿里云计算平台通过软硬件协同创新实现了性能上的大幅提升,目前相关AI计算服务已经在图像识别、语音识别、内容推荐、自动驾驶、自然语言理解等人工智能场景得到了大规模应用。以国内AI创业公司地平线为例,该公司采用阿里云AI计算服务进行深度学习训练,性能提升3倍,并显著降低训练成本。

据了解,阿里云已开源了基于AIACC加速引擎的AI解决方案,基于含光800的AI云服务也将对外开放。

目录
相关文章
|
16天前
|
存储 人工智能 算法
【AI系统】计算与调度
本文探讨了计算与调度的概念,特别是在神经网络和图像处理中的应用。通过分离算法定义和计算组织,Halide 等工具能够显著提升图像处理程序的性能,同时保持代码的简洁性和可维护性。文章详细介绍了计算与调度的基本概念、调度树的构建与约束,以及如何通过调度变换优化计算性能。此外,还讨论了自动调优方法在大规模调度空间中的应用,展示了如何通过探索和预测找到最优的调度方案。
36 0
|
12天前
|
人工智能 Java Serverless
阿里云函数计算助力AI大模型快速部署
随着人工智能技术的快速发展,AI大模型已经成为企业数字化转型的重要工具。然而,对于许多业务人员、开发者以及企业来说,探索和利用AI大模型仍然面临诸多挑战。业务人员可能缺乏编程技能,难以快速上手AI模型;开发者可能受限于GPU资源,无法高效构建和部署AI应用;企业则希望简化技术门槛,以更低的成本和更高的效率利用AI大模型。
64 12
|
2天前
|
机器学习/深度学习 人工智能 运维
阿里云技术公开课直播预告:基于阿里云 Elasticsearch 构建 AI 搜索和可观测 Chatbot
阿里云技术公开课预告:Elastic和阿里云搜索技术专家将深入解读阿里云Elasticsearch Enterprise版的AI功能及其在实际应用。
阿里云技术公开课直播预告:基于阿里云 Elasticsearch 构建 AI 搜索和可观测 Chatbot
|
9天前
|
人工智能 缓存 并行计算
转载:【AI系统】CPU 计算本质
本文深入探讨了CPU计算性能,分析了算力敏感度及技术趋势对CPU性能的影响。文章通过具体数据和实例,讲解了CPU算力的计算方法、算力与数据加载之间的平衡,以及如何通过算力敏感度分析优化计算系统性能。同时,文章还考察了服务器、GPU和超级计算机等平台的性能发展,揭示了这些变化如何塑造我们对CPU性能的理解和期待。
转载:【AI系统】CPU 计算本质
|
9天前
|
机器学习/深度学习 存储 人工智能
转载:【AI系统】计算之比特位宽
本文详细介绍了深度学习中模型量化操作及其重要性,重点探讨了比特位宽的概念,包括整数和浮点数的表示方法。文章还分析了不同数据类型(如FP32、FP16、BF16、FP8等)在AI模型中的应用,特别是FP8数据类型在提升计算性能和降低内存占用方面的优势。最后,文章讨论了降低比特位宽对AI芯片性能的影响,强调了在不同应用场景中选择合适数据类型的重要性。
转载:【AI系统】计算之比特位宽
|
12天前
|
机器学习/深度学习 人工智能 前端开发
【AI系统】计算图的控制流实现
计算图作为有向无环图(DAG),能够抽象神经网络模型,但在编程中遇到控制流语句(如if、else、while、for)时,如何表示成为难题。引入控制流后,开发者可构建更复杂的模型结构,但部署含控制流的模型至不支持Python的设备上较为困难。目前,PyTorch仅支持Python控制流,而TensorFlow通过引入控制流原语来解决此问题。计算图的动态与静态实现各有优劣,动态图易于调试,静态图利于优化。
40 5
【AI系统】计算图的控制流实现
|
12天前
|
机器学习/深度学习 人工智能 算法
【AI系统】计算图挑战与未来
当前主流AI框架采用计算图抽象神经网络计算,以张量和算子为核心元素,有效表达模型计算逻辑。计算图不仅简化数据流动,支持内存优化和算子调度,还促进了自动微分功能的实现,区分静态图和动态图两种形式。未来,计算图将在图神经网络、大数据融合、推理部署及科学计算等领域持续演进,适应更复杂的计算需求。
45 5
【AI系统】计算图挑战与未来
|
12天前
|
机器学习/深度学习 人工智能 PyTorch
【AI系统】计算图基本介绍
近年来,AI框架如TensorFlow和PyTorch通过计算图描述神经网络,推动了AI技术的发展。计算图不仅抽象了神经网络的计算表达,还支持了模型算子的高效执行、梯度计算及参数训练。随着模型复杂度增加,如MOE、GAN、Attention Transformer等,AI框架需具备快速分析模型结构的能力,以优化训练效率。计算图与自动微分紧密结合,实现了从前向计算到反向传播的全流程自动化。
37 4
【AI系统】计算图基本介绍
|
14天前
|
存储 机器学习/深度学习 人工智能
【AI系统】计算图优化架构
本文介绍了推理引擎转换中的图优化模块,涵盖算子融合、布局转换、算子替换及内存优化等技术,旨在提升模型推理效率。计算图优化技术通过减少计算冗余、提高计算效率和减少内存占用,显著改善模型在资源受限设备上的运行表现。文中详细探讨了离线优化模块面临的挑战及解决方案,包括结构冗余、精度冗余、算法冗余和读写冗余的处理方法。此外,文章还介绍了ONNX Runtime的图优化机制及其在实际应用中的实现,展示了如何通过图优化提高模型推理性能的具体示例。
45 4
【AI系统】计算图优化架构
|
14天前
|
机器学习/深度学习 存储 人工智能
【AI系统】自定义计算图 IR
本文介绍了模型转换的方法及流程,重点讲解了计算图的自定义方法和优化技术。通过IR(Intermediate Representation)将不同AI框架的模型转换为统一格式,实现跨平台高效部署。计算图由张量和算子构成,支持多种数据类型和内存排布格式,通过算子融合等优化技术提高模型性能。文章还详细说明了如何使用FlatBuffers定义计算图结构,包括张量、算子和网络模型的定义,为自定义神经网络提供了实践指南。
31 3
【AI系统】自定义计算图 IR
下一篇
DataWorks