先分享一下背景,现在 AI 硬件越来越多,各种种类,各种技术架构,从云的角度,要回答一个问题,硬件好不好用?怎么用?评测体系其实更多服务这个领域,包括技术的总结。
本次主要就从三个方面来进行阐述,第一方面面向 AI 硬件的统一评测标准。第二方面是平台化和工具化,这块是一个技术的实现。第三方面多维度评测数据的消费链路,是整个的评测的数据如何被用户消费,怎么理解数据?这三方面主要目的是把数据的评测、数据的生产和评测数据的消费链路给打通,这是主要的目的。把 AI 硬件业务场景,包括最终的终端用户,把这三个要素通过评测体系加技术方案串接在一起。
一、面向 AI 硬件的统一评测标准
评测的标准主要分为三个方面,第一方面是基础的硬件性能,还有一块是模型的推理性能,第三块是训练的性能。
在硬件性能主要就包含了基础的算子,包括计算的,例如算力显存带宽,包括互联评价的标准,还有例如模型推理。更多的是面向业务,例如服务化的场景,包括还有静态的这块会有标准的测试的框架,或者说测试的数据集,去年主要覆盖了单机训练,多机训练,不同的并行策略下,硬件的性能的表现。总体来说评测体系有以下这些特性。来源于实际业务的 workload 如果是这个领域对自己来说都是比较常见的东西,针对阿里云在在自己的评测体系里,是会加入面向自己业务的 workload 。
算子的配置,基础的算力的技术评价,包括显能概况的评价,都会跟实际业务挂钩,或者说是从实际业务当中提取自己的参数配置,相关的信息来辅助测试,包括像推理的也是一样。把这些业务的 SOA会落地在评测的标准里。另外一块去黑盒,很多厂家会提供基础的性能,比如平时的工具都是必然的,或者说没有告诉评测的方法是什么,这在整个评测标准里,必须是开源的,或者说是自研的,完全掌握评测所有细节的标准。
另外是多硬件平台的统一标准。与去黑盒是比较相关的,因为能够掌握整个的评测标准的具体的实现,包括它的参数配置,整个的所有硬件它的评测的标准,能够全部对齐,不管是找硬件还是硬件的评测标准都是一样的。这样最终的数据产生比较客观的存在。
然后是多层次,多层次在标准里比较好的能够体现,因为它只覆盖了硬件的基础的性能,包括算力,包括带宽。也包含了向更上层的算子,还有面向业务的端到端的,比如说推理的训练的都有。
基于刚才的标准,整个评测的流程是怎么样的,基本上包含了三个方面,从最初的硬件的基础性能,到 SOTA 模型的这么一个端到端的性能的推理,性能的评测,包括典型场景下模型性能的评测,整个包括训练推理都包含在内,把国产化的硬件,或者说跟国外的厂商硬件,通过这一套,是个组合拳,一套评测,会生成端到端的新的评测报告,包括性能报告 1.18.10 能够对齐, A 厂家新的报告跟 B 厂家的新的报告是能够一对一的进行比较的,孰优孰劣就非常清楚的能够体现出来。
二、平台化和工具化
基于刚才所说的标准,去做技术上的落地和实现,分为两个部分。一方面就是平台化,有对应的评测的工具,评测的平台主要包含从上往下看,首先有 AI 硬件的集群,这个集群里就包含了目前主流厂商的硬件都在池子里进行统一的管理,在上一层是有统一的资源管理层的,通过统一资源管理层,能够方便的申请到不同的硬件厂家的不同的硬件资源,做相应的评测。
在这上面有对应,例如推理评测的平台和训练评测的平台。在这个平台上用户可以做例如评测任务的管理,可以去调度对应的资源,推理可以去发起对应的类似于评测场景下的任务,对应的还有例如说像镜像的管理,数据界的管理,包括硬件的信息管理都可以在这个平台上进行完成。另外在训练和推理之间的相关的例如镜像的数据,包括数据集的信息,包括硬件的指标信息之间的所有的电路都是打通的,用户在这方面就能很方便的看到推理的数据和训练的数据。
这个平台在内网环境里更多的针对周期性的、大规模的性能的评测,因此会把当前最新的模型,在当前的硬件上周期性的刷一遍,会得到总体的性能分布。
另一方面工具化,针对的场景跟前面有一些不同,有些硬件引入的过程当中,需求是非常紧急的,这里不方便去到平台上去进行系统性的测试,接入包括验证时间比较长,周期比较长,因此会有工具来覆盖这种比较紧急的情况。通过这个工具可以第一时间完成硬件的适配,包括去形成端到端的评测能力,第一时间能够输出报告,报告输出后就为硬件接下来的技术验证、技术选型、还有最终的产品决策提供比较客观评价的标准。
这里是技术落地具体的展示,这上面分别是训练的平台和推理的平台,在推理的平台上刚才也介绍是可以发起任务。去管理压缩的镜像,还可以去查看最终的评测的结果,包括数据的展示。例如硬件信息,总的就是把训练任务、评测硬件,包括训练数据这三个东西其实串接起来。在这个平台上都能够有比较形象化展示,训练这边是一样的,可以去发起训练的漏洞,包括多机训练的任务都可以在这个平台上进行发起,包括训练数据的自动化的收集。
另外还有推理的离线的评测工具,主要是面向刚才说的紧急的场景或者临时性的测试工作,包括还有硬件的基础性能的评测工具。
三、多维的评测数据的消费链路
刚才提到如何生产数据,同时生产出来后,会把数据进行结构化的和自由化的保存,在平台上形成了数据的仓库,有了数据后,更多的还是想如何把数据更好的服务自身的业务,能够根据自身需求,能够进行有效的消费。
在这上面分了几个场景,第一面向综合通用场景。面向对 AI 有一定了解,但并不是专门从事这个领域的,它能够在上面非常清晰的看到硬件在整个的大盘子里处在什么位置,例如推理性能是怎样的,算力是怎样的,训练性能是怎样的,非常清晰的排行,包括像对比不同硬件之间的差别,也会提供非常方便的工具进行端到端的比较。
第二是面向特定业务的评测的功能,例如推理框架的不同版本之间的性能对比的报告,有大量的数据,可以很方便的把数据进行一个处理,包括针对推理框架的不同版本的性能能够提供报告。
第三在实际业务,例如前线业务上的业务推广上,可以非常方便的把不同硬件不同模型上的性能表现,通过指定的一些 SLA 给筛选出来,告诉用户在怎么样的硬件配置下,这个模型的性能是最好的。
最后是专业的性能的品质报告,针对重点的硬件,会提供非常详细的评测的报告,包含硬件的性能,推理训练报告作为业务的决策的重要的依据。
综上所述,这套体系包括标准加的平台,整体目前已覆盖了大概100+的硬件。各种业务方跟 AI 相关的基础的信息,例如技术团队,包括供应链采购,都会在这个平台上来进行查询或者消费。当然现在也覆盖了例如像 1.25.11 类似业务场景。