MindIE BenchMark

简介: MindIE Benchmark工具通过部署昇腾服务化配套包,以终端命令方式测试大语言模型在不同配置下的推理性能和精度。它支持Client和Engine两种推理模式:Client模式适用于多用户并发场景,兼容多种接口;Engine模式直接调用底层API,测量NPU卡的真实性能。该工具支持多个数据集进行精度和性能测试,如CEval 5-shot、CMMLU、GSM8K等,并将结果保存为本地csv文件。评测方法包括调用大模型输入题目,解析返回结果并与正确答案比较,计算平均分和其他指标如准确率、EM等。

1 BenchMark工具

服务化MindIE Benchmark工具是通过部署昇腾服务化配套包后,以调用终端命令的方式测试大语言模型在不同配置参数下的推理性能和精度,并通过表格的形式展示模型在各个阶段的推理耗时(例如FirstTokenTime、DecodeTime等),以及对应时延的平均值、最小值、最大值、75分位(P75)、90分位(P90、SLO_P90)和99分位(P99)概率统计值,最后将计算结果保存到本地csv文件中。

2 应用场景

支持Client和Engine两种不同的推理模式。

2.1 Client模式

MindIE Benchmark支持调用MindIE Client接口的方式,与Server-Endpoint进行通信并完成测试。

2.2 Engine模式

MindIE Benchmark支持通过直接调用MindIE LLM中LLM Manger提供的Python接口进行全量推理,接口详情请参见《MindIE LLM开发指南》的“API接口说明 > LLM Manger提供的Python接口”章节。

  • 支持token id到token id异步推理,数据集转换为tokenid的具体转换方法请参考数据集使用
  • 支持文本到文本的异步推理。

说明

  • Client模式适用于模拟多用户并发场景,兼容TGI、Triton和vLLM等多种接口,主要用于测量服务化性能。Client测量的吞吐量为用户真实感知的吞吐量,其计入包括网络请求和数据处理等消耗的时间。
  • Engine模式直接调用底层API,并将NPU推理返回的结果暂存,当所有推理完成后再由CPU处理暂存的数据,其测量的吞吐量更接近NPU卡的真实性能。
  • Engine模式中使用到的ModelName(模型名称)和ModelPath(模型权重路径)需要和MindIE Server的config.json配置文件中modelName(模型名称)和modelWeightPath(模型权重路径)参数保持一致,而npuDeviceIds(NPU卡编号)和maxBatchSize(最大decode batch size)参数的值是由MindIE Server中的config.json配置文件决定,详情请参见配置参数说明

2.3  支持精度测试的数据集

包括纯文本数据集CEval 5-shot、CMMLU、GSM8K、MMLU 5-shot和多模态数据集TextVQA、VideoBench、VocalSound,Engine模式和Client模式都支持测试,请参见数据集使用获取数据集。

数据集的使用参考:

CMMLU(中文评测数据集为例说明。

下载地址https://github.com/haonan-li/CMMLU

CMMLU是一个综合性的中文评估基准,专门用于评估语言模型在中文语境下的知识和推理能力。

CMMLU涵盖了从基础学科到高级专业水平的67个主题。

它包括:需要计算和推理的自然科学,需要知识的人文科学和社会科学,以及需要生活常识的中国驾驶规则等。

此外,CMMLU中的许多任务具有中国特定的答案(如中国驾驶规范),可能在其他地区或语言中并不普遍适用。因此是一个完全中国化的中文测试基准。

里面的数值以csv的形式存在如:

https://github.com/haonan-li/CMMLU/blob/master/data/test/agronomy.csv

维度

Question

A/B/C/D

Answer

农学/agronomy

在农业生产中被当作极其重要的劳动对象发挥作用,最主要的不可替代的基本生产资料是

A农业生产工具,B土地,C劳动力,D资金

B

农学/agronomy

在孵化室温度为24~26°C的条件下,立体孵化器孵化鸡蛋的最适温度为

36°C,37.8°C,36.5°C,37°C,

B

解剖/anatomy

上消化道是指

从口腔到胃,口腔和咽,从口腔到食管,从口腔到十二指肠,

D

解剖/anatomy

心室舒张期关闭的瓣膜为

肺动脉瓣,三尖瓣,二尖瓣,主动脉瓣

B

古文字/ancient_chinese

“关雎乐而不淫,哀而不伤。”中的“淫”意思是

不正当的,浸润,过分、过度,淫邪

C

古文字/ancient_chinese

说文四大家”中注重分析字义来源和发展的是,

王筠,朱骏声,桂馥,段玉裁

B

arts/艺术

电视剧《京华烟云》根据同名小说改编,原作作者是

沈从文,林语堂,周作人,老舍

B

arts/艺术

梵高是哪个国家著名画家

英国,丹麦,荷兰,法国

C

arts/艺术

摄影艺术中,用以表现某一个被摄对象的全貌和它所处的环境为目的,一般应用

,全景,远景,中景,近景,

A

astronomy/天文学

2019年1月12日,中国天文学会和北京天文馆在京联合宣布启动国际天文学联合会(IAU)发起的“同一天空下”全球天文行动(中国大陆地区),以纪念IAU成立多少周年

60,200,80,100

D

astronomy/天文学

2017年6月15日,硬X射线调制望远镜在酒泉卫星发射中心发射升空,弥补了我国空间X射线探测的空白,这个望远镜名字是,

悟空,墨子,天眼,慧眼

D

business_ethics/商业伦理

经济活动中的信用是不同所有者之间商品和货币资金的借贷以及赊销预付等行为,它是指一种,

间接信用,信用行为,借贷行为,直接信用

C

chinese_civil_service_exam/中文_公务员_考试

老王在A市有两套住房,一套自己居住,另一套闲置。老张是老王的朋友,一直居住在B市,现由于工作原因,需要在A市长期租住。老张希望租老王闲置的那套房子,老王说:“我女儿两个月后大学毕业,如果她毕业后不回A市工作生活,我就把房予出租给你。”下列选项中,哪些为真,可以证明老王没有说真话?(1)老王的女儿毕业后留在C市工作生活,老王拒绝把房子租给老张(2)老王的女儿毕业后回到A市工作生活,老王把房子租给老张(3)老王的女儿毕业后回到A市工作生活,老王拒绝把房子租给老张

,(1)(2),(1)(2)(3),(2)(3),(1)

D

chinese_civil_service_exam/中文_公务员_考试

某单位组织职工分小组进行摘草莓趣味比赛,甲、乙、丙3人分属3个小组。3人摘得的草莓数量情况如下:甲和属于第3小组的那位摘得的数量不一样,丙比属于第1小组的那位摘得少,3人中第3小组的那位比乙摘得多。若将3人按摘得的草莓数量从多到少排列,正确的是

,丙、甲、乙,甲、丙、乙,乙、甲、丙,甲、乙、丙,

B

chinese_driving_rule/中文驾驶规则

以欺骗、贿赂等不正当手段取得驾驶证被依法撤销驾驶许可的,多长时间不得重新申请驾驶许可

5年内,终身,3年内,1年内

C

chinese_history/中国历史

随着中国民族资本主义产生和发展,工商业者群体意识逐渐形成,作为一种新的社会力量,工商业者在创办实业、抵制洋货、收回利权、立宪运动、民主革命、抗日救亡等众多社会事务中日益显示出自身的实力和存在价值。对此,下列历史解释正确的是,

工商业者是倡导革命的新中坚力量,工商业者依旧属于传统的社会群体,工商业者投身社会事务是有利可图,工商业者推动了近代中国社会发展,

D

...

journalism/新闻

法西斯的新闻事业属于什么阶段,

自由主义,社会主义,集权主义,集团垄断资本主义

C

professional_medicine/专业_医学

下列呼吸系统疾病中主要表现为呼气性呼吸困难的是,

肺气肿,肺纤维化,肺炎,肺水肿

A

评测方法,调用大模型,输入题目,解析大模型返回结果,与测试集中正确结果比较,如果正确得1分,否0分,然后计算平均值

其它主要 metric 与数据集的简要说明及学习资源:

  1. MMLU (Measuring Massive Multitask Language Understanding)

2. GSM8K

3. MATH

4. HumanEval

5. MBPP (The MBPP Benchmark)

  • 用于评测 Python 代码生成和小规模函数实现。
  • 常见指标:Pass@1或其他准确率。
  • 学习资源:
  • MBPP 项目地址

6. C-Eval

  • 中文大模型综合评测,多学科、多层级知识问答。
  • 常见指标:Accuracy
  • 学习资源:
  • Huang et al., 2023, "C-Eval"

7. CMMLU

  • 类似 MMLU 的中文版本,多领域、多层级问答数据集。
  • 常见指标:Accuracy
  • 学习资源:
  • CMMLU GitHub

8. AlpacaEval 2.0、Arena-Hard

2.4 支持性能测试的数据集

包括Gsm8k、OA、CEval 5-shot、MMLU 5-shot、BoolQ、HumanEval、mtbench和cocotest,主要使用GSM8K和OA两个数据集来测试模型的性能,请参见数据集使用获取数据集。

本文参考:


相关文章
|
12月前
|
容器
vllm+vllm-ascend本地部署QwQ-32B
本指南介绍如何下载、安装和启动基于Ascend的vLLM模型。首先,可通过华为镜像或Hugging Face下载预训练模型;其次,安装vllm-ascend,支持通过基础镜像(如`quay.io/ascend/vllm-ascend:v0.7.3-dev`)或源码编译方式完成;最后,使用OpenAI兼容接口启动模型,例如运行`vllm serve`命令,设置模型路径、并行规模等参数。适用于大模型推理场景,需注意显存需求(如QwQ-32B需70G以上)。
4549 17
|
4月前
|
负载均衡 Docker Python
vLLM-Ascend 安装部署与环境配置指南
vLLM-Ascend 是 vLLM 项目专为华为昇腾 NPU 设计的硬件插件,支持主流大模型与多模态架构,提供高性能推理能力。项目结构清晰,涵盖核心算子、工具脚本与容器化部署方案,兼容单/多节点环境,助力高效构建昇腾上的 AI 推理服务。
1919 1
|
8月前
|
并行计算 PyTorch 调度
大模型推理显存优化系列(4):eLLM-大模型推理中的弹性显存管理和优化
本文简要介绍eLLM相关技术挑战、总体设计和初步性能评估
|
6月前
|
缓存 异构计算
LLM 内存需求计算方式
GPU上大语言模型的内存主要由模型权重和KV缓存构成。70亿参数模型以16位精度加载时,权重占约14GB;KV缓存则随批大小和序列长度线性增长,显著影响显存使用,限制推理吞吐与长上下文处理。
570 11
|
人工智能 缓存 安全
大模型无缝切换,QwQ-32B和DeepSeek-R1 全都要
通义千问最新推出的QwQ-32B推理模型,拥有320亿参数,性能媲美DeepSeek-R1(6710亿参数)。QwQ-32B支持在小型移动设备上本地运行,并可将企业大模型API调用成本降低90%以上。本文介绍了如何通过Higress AI网关实现DeepSeek-R1与QwQ-32B之间的无缝切换,涵盖环境准备、模型接入配置及客户端调用示例等内容。此外,还详细探讨了Higress AI网关的多模型服务、消费者鉴权、模型自动切换等高级功能,帮助企业解决TPS与成本平衡、内容安全合规等问题,提升大模型应用的稳定性和效率。
1596 136
大模型无缝切换,QwQ-32B和DeepSeek-R1 全都要
|
人工智能 PyTorch 算法框架/工具
【AI系统】昇腾推理引擎 MindIE
本文详细介绍华为昇腾推理引擎 MindIE,涵盖其基本介绍、关键功能特性及三大组件:MindIE-Service、MindIE-Torch 和 MindIE-RT。文章深入探讨了各组件在服务化部署、大模型推理和推理运行时方面的功能和应用场景,旨在帮助读者全面了解 MindIE 如何支持 AI 业务的高效运行和模型的快速部署。
1490 0
|
9月前
|
缓存 人工智能 负载均衡
Scale Up!阿里云让大模型一体机真正实现“算得快”、“用得好”
当前,人工智能技术快速发展,中国智能计算市场进入成长期。大模型推理场景面临实时性、负载均衡与成本控制等多重挑战。阿里云通过芯片算子库升级、模型量化创新及推理引擎优化,实现性能加速,并应用于AI Stack训推一体机和百炼专属版等产品,支持大规模模型高效运行,显著提升性价比与用户体验。
1338 0
|
测试技术 Shell
MindIE LLM场景快速上手实验
MindIE是昇腾自研推理框架,本实验手册可指导小白用户快速掌握MindIE在LLM(large language model)场景的基本功能,包括:大模型推理功能测试、大模型性能测试、大模型精度测试、服务化推理部署、benchmark测试等。
847 3
|
人工智能 Serverless 开发者
最佳实践 | 轻松部署,即刻触达 Qwen2.5 的飞一般的体验
通过阿里云函数计算(FC)部署Ollama和Open WebUI,实现Qwen2.5模型的托管与交互。
|
测试技术 API
QwQ-32B,支持Function Call的推理模型,深度思考Agent的时代来了!
近期,Qwen 发布了 QwQ-32B - 一个在许多基准测试中性能可与 DeepSeek-R1 相媲美的推理模型。
2112 9

热门文章

最新文章