面向高效大模型推理的软硬协同加速技术 多元化 AI 硬件引入评测体系

本文涉及的产品
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
实时计算 Flink 版,5000CU*H 3个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
简介: 本文介绍了AI硬件评测体系的三大核心方面:统一评测标准、平台化与工具化、多维度数据消费链路。通过标准化评测流程,涵盖硬件性能、模型推理和训练性能,确保评测结果客观透明。平台化实现资源管理与任务调度,支持大规模周期性评测;工具化则应对紧急场景,快速适配并生成报告。最后,多维度数据消费链路将评测数据结构化保存,服务于综合通用、特定业务及专业性能分析等场景,帮助用户更好地理解和使用AI硬件。

先分享一下背景,现在 AI 硬件越来越多,各种种类,各种技术架构,从云的角度,要回答一个问题,硬件好不好用?怎么用?评测体系其实更多服务这个领域,包括技术的总结。


本次主要就从三个方面来进行阐述,第一方面面向 AI 硬件的统一评测标准。第二方面是平台化和工具化,这块是一个技术的实现。第三方面多维度评测数据的消费链路,是整个的评测的数据如何被用户消费,怎么理解数据?这三方面主要目的是把数据的评测、数据的生产和评测数据的消费链路给打通,这是主要的目的。把 AI 硬件业务场景,包括最终的终端用户,把这三个要素通过评测体系加技术方案串接在一起。

 

一、面向 AI 硬件的统一评测标准

评测的标准主要分为三个方面,第一方面是基础的硬件性能,还有一块是模型的推理性能,第三块是训练的性能。


在硬件性能主要就包含了基础的算子,包括计算的,例如算力显存带宽,包括互联评价的标准,还有例如模型推理。更多的是面向业务,例如服务化的场景,包括还有静态的这块会有标准的测试的框架,或者说测试的数据集,去年主要覆盖了单机训练,多机训练,不同的并行策略下,硬件的性能的表现。总体来说评测体系有以下这些特性。来源于实际业务的 workload 如果是这个领域对自己来说都是比较常见的东西,针对阿里云在在自己的评测体系里,是会加入面向自己业务的 workload 。


算子的配置,基础的算力的技术评价,包括显能概况的评价,都会跟实际业务挂钩,或者说是从实际业务当中提取自己的参数配置,相关的信息来辅助测试,包括像推理的也是一样。把这些业务的 SOA会落地在评测的标准里。另外一块去黑盒,很多厂家会提供基础的性能,比如平时的工具都是必然的,或者说没有告诉评测的方法是什么,这在整个评测标准里,必须是开源的,或者说是自研的,完全掌握评测所有细节的标准。


另外是多硬件平台的统一标准。与去黑盒是比较相关的,因为能够掌握整个的评测标准的具体的实现,包括它的参数配置,整个的所有硬件它的评测的标准,能够全部对齐,不管是找硬件还是硬件的评测标准都是一样的。这样最终的数据产生比较客观的存在。


然后是多层次,多层次在标准里比较好的能够体现,因为它只覆盖了硬件的基础的性能,包括算力,包括带宽。也包含了向更上层的算子,还有面向业务的端到端的,比如说推理的训练的都有。


基于刚才的标准,整个评测的流程是怎么样的,基本上包含了三个方面,从最初的硬件的基础性能,到 SOTA 模型的这么一个端到端的性能的推理,性能的评测,包括典型场景下模型性能的评测,整个包括训练推理都包含在内,把国产化的硬件,或者说跟国外的厂商硬件,通过这一套,是个组合拳,一套评测,会生成端到端的新的评测报告,包括性能报告 1.18.10   能够对齐, A 厂家新的报告跟 B 厂家的新的报告是能够一对一的进行比较的,孰优孰劣就非常清楚的能够体现出来。

 

二、平台化和工具化

基于刚才所说的标准,去做技术上的落地和实现,分为两个部分。一方面就是平台化,有对应的评测的工具,评测的平台主要包含从上往下看,首先有 AI 硬件的集群,这个集群里就包含了目前主流厂商的硬件都在池子里进行统一的管理,在上一层是有统一的资源管理层的,通过统一资源管理层,能够方便的申请到不同的硬件厂家的不同的硬件资源,做相应的评测。


在这上面有对应,例如推理评测的平台和训练评测的平台。在这个平台上用户可以做例如评测任务的管理,可以去调度对应的资源,推理可以去发起对应的类似于评测场景下的任务,对应的还有例如说像镜像的管理,数据界的管理,包括硬件的信息管理都可以在这个平台上进行完成。另外在训练和推理之间的相关的例如镜像的数据,包括数据集的信息,包括硬件的指标信息之间的所有的电路都是打通的,用户在这方面就能很方便的看到推理的数据和训练的数据。


这个平台在内网环境里更多的针对周期性的、大规模的性能的评测,因此会把当前最新的模型,在当前的硬件上周期性的刷一遍,会得到总体的性能分布。


另一方面工具化,针对的场景跟前面有一些不同,有些硬件引入的过程当中,需求是非常紧急的,这里不方便去到平台上去进行系统性的测试,接入包括验证时间比较长,周期比较长,因此会有工具来覆盖这种比较紧急的情况。通过这个工具可以第一时间完成硬件的适配,包括去形成端到端的评测能力,第一时间能够输出报告,报告输出后就为硬件接下来的技术验证技术选型还有最终的产品决策提供比较客观评价的标准。


这里是技术落地具体的展示,这上面分别是训练的平台推理的平台在推理的平台上刚才也介绍是可以发起任务去管理压缩的镜像,还可以去查最终的评测的结果,包括数据的展示。例如硬件信息,总的就是把训练任务、评测硬件,包括训练数据这三个东西其实串接起来在这个平台上都能够有比较形象化展示,训练这边是一样的,可以去发起训练的漏洞,包括多机训练的任务都可以在这个平台上进行发起,包括训练数据的自动化的收集


另外还有推理的离线的评测工具,主要是面向刚才说的紧急的场景或者临时性的测试工作,包括还有硬件的基础性能的评测工具。

 

三、多维的评测数据的消费链路

刚才提到如何生产数据,同时生产出来后,会把数据进行结构化的和自由化的保存,在平台上形成了数据的仓库,了数据后,更多的还是想如何把数据更好的服务自身的业务,能够根据自需求,能够进行有效的消费


在这上面分了几个场景,第一面向综合通用场景面向对 AI 有一定了解,但并不是专门从事这个领域的,它能够在上面非常清晰的看到硬件在整个的大盘子里处在什么位置,例如推理性能是怎样的,算力是怎样的,训练性能是怎样的,非常清晰的排行,包括像对比不同硬件之间的差别,也会提供非常方便的工具进行端到端的比较。


第二是面向特定业务的评测的功能,例如推理框架的不同版本之间的性能对比的报告,有大量的数据,可以很方便的把数据进行一个处理,包括针对推理框架的不同版本的性能能够提供报告。


第三在实际业务,例如前线业务上的业务推广上,可以非常方便的把不同硬件不同模型上的性能表现,通过指定的一些 SLA 给筛选出来,告诉用户在怎么样的硬件配置下,这个模型的性是最好的。


最后是专业的性能的品质报告,针对重点的硬件,会提供非常详细的评测的报告,包含硬件的性能,推理训练报告作为业务的决策的重要的依据。


综上所述,这套体系包括标准加的平台,整体目前已覆盖了大概100+的硬件。各种业务方跟 AI 相关的基础的信息,例如技术团队,包括供应链采购,都会在这个平台上来进行查询或者消费。当然现在也覆盖了例如   1.25.11 类似业务场景。

 


相关文章
|
7天前
|
人工智能 边缘计算 自然语言处理
解决方案评测|AI 剧本生成与动画创作
随着影视、游戏、广告等内容产业的爆发式增长,剧本创作与动画制作的需求量和复杂度持续攀升。传统流程耗时耗力且成本高,平均需12-18个月完成一部中等规模3D动画项目。阿里云通过“AI+云计算”重构这一链路,提出从剧本到画面的端到端创作提效方案,涵盖智能生成剧本、自动化动画创作及云端协作,旨在降本50%、提速3倍。本文将从技术能力、创作自由度、商业化适配性三大维度解析该解决方案,并提出多项改进建议,助力内容团队实现高效创作。 [了解更多并在线部署](https://www.aliyun.com/solution/tech-solution/animation-creation)
|
7天前
|
人工智能 搜索推荐 API
node-DeepResearch:开源复现版OpenAI Deep Research,支持多步推理和复杂查询的AI智能体
node-DeepResearch 是一个开源 AI 智能体项目,支持多步推理和复杂查询,帮助用户逐步解决问题。
121 27
node-DeepResearch:开源复现版OpenAI Deep Research,支持多步推理和复杂查询的AI智能体
|
3天前
|
人工智能 开发框架 机器人
AstrBot:轻松将大模型接入QQ、微信等消息平台,打造多功能AI聊天机器人的开发框架,附详细教程
AstrBot 是一个开源的多平台聊天机器人及开发框架,支持多种大语言模型和消息平台,具备多轮对话、语音转文字等功能。
211 13
AstrBot:轻松将大模型接入QQ、微信等消息平台,打造多功能AI聊天机器人的开发框架,附详细教程
|
5天前
|
机器学习/深度学习 存储 人工智能
MNN-LLM App:在手机上离线运行大模型,阿里巴巴开源基于 MNN-LLM 框架开发的手机 AI 助手应用
MNN-LLM App 是阿里巴巴基于 MNN-LLM 框架开发的 Android 应用,支持多模态交互、多种主流模型选择、离线运行及性能优化。
485 13
MNN-LLM App:在手机上离线运行大模型,阿里巴巴开源基于 MNN-LLM 框架开发的手机 AI 助手应用
|
1天前
|
人工智能 数据可视化 搜索推荐
免费+数据安全!手把手教你在PC跑DeepSeek-R1大模型,小白也能秒变AI大神!
本地部署AI模型(如DeepSeek R1)保障数据隐私、节省成本且易于控制,通过Ollama平台便捷安装与运行,结合可视化工具(如Chatbox)及Python代码调用,实现高效、个性化的AI应用开发与使用。
47 2
免费+数据安全!手把手教你在PC跑DeepSeek-R1大模型,小白也能秒变AI大神!
|
3天前
|
存储 人工智能 算法
《AI 剧本生成与动画创作》解决方案评测
《AI 剧本生成与动画创作》解决方案评测
34 10
|
2天前
|
人工智能 关系型数据库 分布式数据库
PolarDB 开源基础教程系列 7.4 应用实践之 AI大模型外脑
PolarDB向量数据库插件通过实现通义大模型AI的外脑,解决了通用大模型无法触达私有知识库和产生幻觉的问题。该插件允许用户将新发现的知识和未训练的私有知识分段并转换为向量,存储在向量数据库中,并创建索引以加速相似搜索。当用户提问时,系统将问题向量化并与数据库中的向量进行匹配,找到最相似的内容发送给大模型,从而提高回答的准确性和相关性。此外,PolarDB支持多种编程语言接口,如Python,使数据库具备内置AI能力,极大提升了数据处理和分析的效率。
21 4
|
6天前
|
人工智能 运维 监控
AI驱动的操作系统服务评测报告
作为一位运维工程师,我使用Alibaba Cloud Linux 3操作系统进行云资源的运维和管理。通过控制台可快速开通并管理云资源,界面简洁、功能明确。安装SysOM和OS Copilot组件简单高效,支持实时监控集群健康状况,并提供精准的系统诊断与优化建议。OS Copilot智能助手能有效解答技术问题,提升工作效率。针对EOL系统的订阅服务提供了安全迁移保障。整体体验优秀,尤其适合中小企业降低运维复杂度。建议进一步优化权限管理、增加报告导出功能及增强Copilot交互性。
|
7天前
|
人工智能 安全 数据库
AiCodeAudit-基于Ai大模型的自动代码审计工具
本文介绍了基于OpenAI大模型的自动化代码安全审计工具AiCodeAudit,通过图结构构建项目依赖关系,提高代码审计准确性。文章涵盖概要、整体架构流程、技术名词解释及效果演示,详细说明了工具的工作原理和使用方法。未来,AI大模型有望成为代码审计的重要工具,助力软件安全。项目地址:[GitHub](https://github.com/xy200303/AiCodeAudit)。
|
2天前
|
人工智能 负载均衡 搜索推荐
谷歌发布双思维AI Agent:像人类一样思考,重大技术突破!
谷歌近日推出基于“快慢思维”理论的双思维AI Agent系统,模仿人类大脑的两种思维模式:快速直观的Talker(系统1)和深思熟虑的Reasoner(系统2)。Talker负责日常对话与快速响应,Reasoner则处理复杂推理任务。该系统模块化设计,灵活高效,已在睡眠教练等场景中展现应用潜力,但仍面临工作负载平衡与推理准确性等挑战。论文详情见:https://arxiv.org/abs/2410.08328v1
18 1