面向高效大模型推理的软硬协同加速技术 多元化 AI 硬件引入评测体系

本文涉及的产品
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
实时数仓Hologres,5000CU*H 100GB 3个月
简介: 本文介绍了AI硬件评测体系的三大核心方面:统一评测标准、平台化与工具化、多维度数据消费链路。通过标准化评测流程,涵盖硬件性能、模型推理和训练性能,确保评测结果客观透明。平台化实现资源管理与任务调度,支持大规模周期性评测;工具化则应对紧急场景,快速适配并生成报告。最后,多维度数据消费链路将评测数据结构化保存,服务于综合通用、特定业务及专业性能分析等场景,帮助用户更好地理解和使用AI硬件。

先分享一下背景,现在 AI 硬件越来越多,各种种类,各种技术架构,从云的角度,要回答一个问题,硬件好不好用?怎么用?评测体系其实更多服务这个领域,包括技术的总结。


本次主要就从三个方面来进行阐述,第一方面面向 AI 硬件的统一评测标准。第二方面是平台化和工具化,这块是一个技术的实现。第三方面多维度评测数据的消费链路,是整个的评测的数据如何被用户消费,怎么理解数据?这三方面主要目的是把数据的评测、数据的生产和评测数据的消费链路给打通,这是主要的目的。把 AI 硬件业务场景,包括最终的终端用户,把这三个要素通过评测体系加技术方案串接在一起。

 

一、面向 AI 硬件的统一评测标准

评测的标准主要分为三个方面,第一方面是基础的硬件性能,还有一块是模型的推理性能,第三块是训练的性能。


在硬件性能主要就包含了基础的算子,包括计算的,例如算力显存带宽,包括互联评价的标准,还有例如模型推理。更多的是面向业务,例如服务化的场景,包括还有静态的这块会有标准的测试的框架,或者说测试的数据集,去年主要覆盖了单机训练,多机训练,不同的并行策略下,硬件的性能的表现。总体来说评测体系有以下这些特性。来源于实际业务的 workload 如果是这个领域对自己来说都是比较常见的东西,针对阿里云在在自己的评测体系里,是会加入面向自己业务的 workload 。


算子的配置,基础的算力的技术评价,包括显能概况的评价,都会跟实际业务挂钩,或者说是从实际业务当中提取自己的参数配置,相关的信息来辅助测试,包括像推理的也是一样。把这些业务的 SOA会落地在评测的标准里。另外一块去黑盒,很多厂家会提供基础的性能,比如平时的工具都是必然的,或者说没有告诉评测的方法是什么,这在整个评测标准里,必须是开源的,或者说是自研的,完全掌握评测所有细节的标准。


另外是多硬件平台的统一标准。与去黑盒是比较相关的,因为能够掌握整个的评测标准的具体的实现,包括它的参数配置,整个的所有硬件它的评测的标准,能够全部对齐,不管是找硬件还是硬件的评测标准都是一样的。这样最终的数据产生比较客观的存在。


然后是多层次,多层次在标准里比较好的能够体现,因为它只覆盖了硬件的基础的性能,包括算力,包括带宽。也包含了向更上层的算子,还有面向业务的端到端的,比如说推理的训练的都有。


基于刚才的标准,整个评测的流程是怎么样的,基本上包含了三个方面,从最初的硬件的基础性能,到 SOTA 模型的这么一个端到端的性能的推理,性能的评测,包括典型场景下模型性能的评测,整个包括训练推理都包含在内,把国产化的硬件,或者说跟国外的厂商硬件,通过这一套,是个组合拳,一套评测,会生成端到端的新的评测报告,包括性能报告 1.18.10   能够对齐, A 厂家新的报告跟 B 厂家的新的报告是能够一对一的进行比较的,孰优孰劣就非常清楚的能够体现出来。

 

二、平台化和工具化

基于刚才所说的标准,去做技术上的落地和实现,分为两个部分。一方面就是平台化,有对应的评测的工具,评测的平台主要包含从上往下看,首先有 AI 硬件的集群,这个集群里就包含了目前主流厂商的硬件都在池子里进行统一的管理,在上一层是有统一的资源管理层的,通过统一资源管理层,能够方便的申请到不同的硬件厂家的不同的硬件资源,做相应的评测。


在这上面有对应,例如推理评测的平台和训练评测的平台。在这个平台上用户可以做例如评测任务的管理,可以去调度对应的资源,推理可以去发起对应的类似于评测场景下的任务,对应的还有例如说像镜像的管理,数据界的管理,包括硬件的信息管理都可以在这个平台上进行完成。另外在训练和推理之间的相关的例如镜像的数据,包括数据集的信息,包括硬件的指标信息之间的所有的电路都是打通的,用户在这方面就能很方便的看到推理的数据和训练的数据。


这个平台在内网环境里更多的针对周期性的、大规模的性能的评测,因此会把当前最新的模型,在当前的硬件上周期性的刷一遍,会得到总体的性能分布。


另一方面工具化,针对的场景跟前面有一些不同,有些硬件引入的过程当中,需求是非常紧急的,这里不方便去到平台上去进行系统性的测试,接入包括验证时间比较长,周期比较长,因此会有工具来覆盖这种比较紧急的情况。通过这个工具可以第一时间完成硬件的适配,包括去形成端到端的评测能力,第一时间能够输出报告,报告输出后就为硬件接下来的技术验证技术选型还有最终的产品决策提供比较客观评价的标准。


这里是技术落地具体的展示,这上面分别是训练的平台推理的平台在推理的平台上刚才也介绍是可以发起任务去管理压缩的镜像,还可以去查最终的评测的结果,包括数据的展示。例如硬件信息,总的就是把训练任务、评测硬件,包括训练数据这三个东西其实串接起来在这个平台上都能够有比较形象化展示,训练这边是一样的,可以去发起训练的漏洞,包括多机训练的任务都可以在这个平台上进行发起,包括训练数据的自动化的收集


另外还有推理的离线的评测工具,主要是面向刚才说的紧急的场景或者临时性的测试工作,包括还有硬件的基础性能的评测工具。

 

三、多维的评测数据的消费链路

刚才提到如何生产数据,同时生产出来后,会把数据进行结构化的和自由化的保存,在平台上形成了数据的仓库,了数据后,更多的还是想如何把数据更好的服务自身的业务,能够根据自需求,能够进行有效的消费


在这上面分了几个场景,第一面向综合通用场景面向对 AI 有一定了解,但并不是专门从事这个领域的,它能够在上面非常清晰的看到硬件在整个的大盘子里处在什么位置,例如推理性能是怎样的,算力是怎样的,训练性能是怎样的,非常清晰的排行,包括像对比不同硬件之间的差别,也会提供非常方便的工具进行端到端的比较。


第二是面向特定业务的评测的功能,例如推理框架的不同版本之间的性能对比的报告,有大量的数据,可以很方便的把数据进行一个处理,包括针对推理框架的不同版本的性能能够提供报告。


第三在实际业务,例如前线业务上的业务推广上,可以非常方便的把不同硬件不同模型上的性能表现,通过指定的一些 SLA 给筛选出来,告诉用户在怎么样的硬件配置下,这个模型的性是最好的。


最后是专业的性能的品质报告,针对重点的硬件,会提供非常详细的评测的报告,包含硬件的性能,推理训练报告作为业务的决策的重要的依据。


综上所述,这套体系包括标准加的平台,整体目前已覆盖了大概100+的硬件。各种业务方跟 AI 相关的基础的信息,例如技术团队,包括供应链采购,都会在这个平台上来进行查询或者消费。当然现在也覆盖了例如   1.25.11 类似业务场景。

 


相关文章
|
2天前
|
数据采集 人工智能 分布式计算
MaxFrame:链接大数据与AI的高效分布式计算框架深度评测与实践!
阿里云推出的MaxFrame是链接大数据与AI的分布式Python计算框架,提供类似Pandas的操作接口和分布式处理能力。本文从部署、功能验证到实际场景全面评测MaxFrame,涵盖分布式Pandas操作、大语言模型数据预处理及企业级应用。结果显示,MaxFrame在处理大规模数据时性能显著提升,代码兼容性强,适合从数据清洗到训练数据生成的全链路场景...
13 5
MaxFrame:链接大数据与AI的高效分布式计算框架深度评测与实践!
|
2天前
|
人工智能 搜索推荐 Serverless
打造智能购物新体验:主动式智能导购AI助手解决方案评测
阿里云推出的《主动式智能导购AI助手构建》解决方案,基于百炼大模型和函数计算,采用Multi-Agent架构,提供个性化、智能化的购物体验。系统具备主动交互、精准推荐、自动化架构等亮点,支持快速部署和生产环境应用。评测结果显示,该方案在功能效果和架构设计上表现出色,但仍需优化文档和技术细节。欢迎参加官方评测活动... 详细评测及参与方式请参考:[链接](https://developer.aliyun.com/topic/build-an-ai-shopping-assistant?spm=a2c6h.12873639.article-detail.17.13902d93dZhiyK)。
18 1
打造智能购物新体验:主动式智能导购AI助手解决方案评测
|
1天前
|
人工智能 Serverless API
《主动式智能导购AI助手构建》解决方案评测
通过函数计算应用模板,您可以快速搭建一个集成智能导购的网站,实现多轮交互收集用户商品偏好,默认支持手机、电视和冰箱。部署时填写API Key,创建并部署环境(约1分钟)。部署完成后,访问示例网站域名确认成功。智能导购会根据用户意图分类并传递给相应商品导购Agent,返回商品信息。您还可以选择集成百炼应用进行智能商品检索。此架构适用于智能问诊、求职推荐等场景。在生产环境中,可修改知识库和源码以适配具体需求,并通过优化提示词和私有知识库来持续改进回复效果。
44 28
|
2天前
|
人工智能 搜索推荐 算法
解决方案评测|主动式智能导购AI助手构建
阿里云的主动式智能导购AI助手是电商商家提升用户体验和销量的利器。它能实时分析用户行为,提供个性化推荐,支持多渠道无缝对接,并具备语音和文本交互功能。通过注册阿里云账号、开通服务、配置项目、设置推荐策略、集成到平台并测试优化,商家可以轻松部署这一工具。关键代码示例帮助理解API对接和数据处理。建议增强个性化推荐算法、优化交互体验并增加自定义选项,以进一步提升效果。
32 11
|
1天前
|
数据采集 人工智能 运维
从企业级 RAG 到 AI Assistant,阿里云Elasticsearch AI 搜索技术实践
本文介绍了阿里云 Elasticsearch 推出的创新型 AI 搜索方案。
|
2天前
|
人工智能 自然语言处理 API
大模型编程(3)让 AI 帮我调接口
这是大模型编程系列第三篇,分享学习某云大模型工程师ACA认证免费课程的笔记。本文通过订机票和查天气的例子,介绍了如何利用大模型API实现函数调用,解决实际业务需求。课程内容详实,推荐感兴趣的朋友点击底部链接查看原文,完全免费。通过这种方式,AI可以主动调用接口并返回结果,极大简化了开发流程。欢迎在评论区交流实现思路。
30 1
|
1天前
|
人工智能 容灾 Serverless
AI推理新纪元,PAI全球化模型推理服务的创新与实践
本次分享主题为“AI推理新纪元,PAI全球化模型推理服务的创新与实践”,由阿里云高级产品经理李林杨主讲。内容涵盖生成式AI时代推理服务的变化与挑战、play IM核心引擎的优势及ES专属网关的应用。通过LM智能路由、多模态异步生成等技术,PAI平台实现了30%以上的成本降低和显著性能提升,确保全球客户的业务稳定运行并支持异地容灾,目前已覆盖16个地域,拥有10万张显卡的推理集群。
|
7天前
|
机器学习/深度学习 人工智能 自动驾驶
企业内训|AI大模型在汽车行业的前沿应用研修-某汽车集团
本课程是TsingtaoAI为某汽车集团高级项目经理设计研发,课程全面系统地解析AI的发展历程、技术基础及其在汽车行业的深度应用。通过深入浅出的理论讲解、丰富的行业案例分析以及实战项目训练,学员将全面掌握机器学习、深度学习、NLP与CV等核心技术,了解自动驾驶、智能制造、车联网与智能营销等关键应用场景,洞悉AI技术对企业战略布局的深远影响。
136 97
|
12天前
|
机器学习/深度学习 人工智能 物联网
AI赋能大学计划·大模型技术与应用实战学生训练营——湖南大学站圆满结营
12月14日,由中国软件行业校园招聘与实习公共服务平台携手魔搭社区共同举办的AI赋能大学计划·大模型技术与产业趋势高校行AIGC项目实战营·湖南大学站圆满结营。
AI赋能大学计划·大模型技术与应用实战学生训练营——湖南大学站圆满结营