文档备案控制台

开发者社区 ModelScope模型即服务文章正文

在ModelScope上实现模型评测与压测服务化：PivotEval

2026-04-29 573

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 魔搭推出PivotEval模型评测服务，一键完成模型效果与性能压测。无需搭建环境、下载数据集或写脚本，只需提供API地址并选择基准（如MMLU、GSM8K等），平台自动执行评测，生成交互式可视化报告，支持在线分享与本地复现。

评测大模型，绕不开两个问题：模型效果好不好？推理服务性能够不够？但回答这两个问题的前置成本不低，搭建评测环境、下载和处理数据集、对齐评测标准、编写压测脚本……每一步都不算难，但每一步都需要时间。尤其当你想在多个基准上系统评测、或者在不同并发档位下压测 API 性能时，重复劳动会迅速累积。

为了将模型的评测门槛降低，魔搭推出了 PivotEval 模型评测服务，基于这一全新服务，评测链路能实现大幅度的简化：你提供模型 API 地址，并选择评测内容，剩下的都交给平台。不用在本地安装评测框架，不用自己准备数据集，评测完成后自动生成可交互的可视化报告，还能直接实现在线分享。

如何开始

1. 在ModelScope上进入PivotEval评测服务页面：

此外，你也可以直接从支持评测的模型详情页一键跳转：

2. 创建一个评测任务

你需要填写模型API的接口信息：PivotEval 支持 OpenAI 兼容和 Anthropic 兼容两种模型 API 协议。填入你的 BaseUrl（模型服务地址）和模型名称即可。例如，如果选用魔搭的 API-Provider 来接入外部模型API，按照下图所示填写即可（API-Provider的文档可参见https://modelscope.cn/docs/model-service/API-Inference/api-provider）。

3. 选择”模型评估”或”性能测试”

4. 配置评测参数

选择评测数据集：系统内置 30+个业界主流基准，包括 MMLU、CMMLU、C-Eval、GSM8K 等，更多基准benchmark还在接入中。对于内置的benchmark，无需额外下载和处理。如深入了解特定基准数据，点击“详情”就有详细的解释。

配置模型生成参数（可选）：输出长度调节max_tokens、控制温度temperature、采样系数top_p等核心参数都支持。

5. 点击“开始评测”！

评测完成后，你会拿到什么

评测结束后会输出一份 Markdown 格式的结构化结果，指标清晰，方便存档和横向对比。同时还有一份交互式 HTML 报告，内嵌动态图表，支持点击交互、按不同维度拆开看。这方便您直接分享针对性的评测报告，不用再手动整理数据做图。

可视化评测报告

同时每一步的执行记录都有完整日志留存，支持评测运行过程中通过进度看板随时了解任务状态，以及通过log更好理解评测的过程以及进行可能的问题调查。

两大核心能力

模型评估

适用于模型选型、能力分析、跨模型对比等场景。

评测报告不只给出一个准确率数字。系统会按题目难度梯度拆解模型表现——从基础认知题到复杂推理题，差距一目了然。还会给出知识领域分布分析，哪些领域强、哪些领域需要补强，也很清楚。

评测覆盖 30 多个标准基准，文本理解和多模态场景都有。生成参数（temperature、top_p、max_tokens 等）可以自行配置，有特殊评测需求的话，也支持通过扩展接口自行定制。

性能测试

适用于验证推理服务能扛多大并发、响应速度够不够快。

支持阶梯式自动加压，例如从 1 并发递增到 2、4、8，一次配置即可完成多组并发测试，结果自动对比，不必重复创建任务。也支持通过速率控制来做稳定的流量注入。

核心性能指标覆盖：

底层开源，评测可复现

PivotEval 评测服务基于ModelScope社区开源的 EvalScope 框架构建。评测流程完全透明，所有评测结果，都可以使用 EvalScope 在本地复现。

如果你有定制化的评测需求，比如自定义数据集或评分逻辑，也可以直接基于 EvalScope 进行开发：

GitHub：https://github.com/modelscope/evalscope
文档：https://evalscope.readthedocs.io/

PivotEval服务将持续跟进 EvalScope 的最新评测能力，更多功能正在迭代中。

常见问题

1. 所有模型都支持评测吗？

并非所有模型都支持评测，当前仅支持评测文本生成（LLM）模型及多模态理解（VLM）模型，且需要您自行准备OpenAI兼容或Anthropic兼容的API。

用户可通过在模型库列表页左上角筛选项，发现平台推荐的可评测模型，进入具体模型详情页通过右上角评测按钮快速发起。

2. 性能测试和模型评测有什么区别？

模型评测关注模型的能力表现（如准确率、F1 分数等），使用标准数据集进行评估；性能测试关注推理服务的性能指标（如吞吐量、延迟等），通过并发请求模拟真实负载场景。

3. 评测任务失败后如何处理？

首先查看任务日志了解失败原因。如果是临时性错误（如网络波动），可使用”从失败处继续”功能从中断位置恢复。如果是配置错误，需修正配置后重新创建任务。

使用过程中有任何建议或问题，欢迎随时反馈给团队。

文章标签：

测试技术

API

数据可视化

自然语言处理

modelscope

目录

相关文章

龙蜥社区（OpenAnolis）

|

人工智能弹性计算安全

ANOLISA Lab 实战：体验省Token、安全防护、一键回滚，完成一个即可领猫超卡，冲榜还有B站年卡 | 第一期

快来体验领取奖励哦~

龙蜥社区（OpenAnolis）

494 0 0

modelscope

|

3月前

|

机器学习/深度学习缓存测试技术

DeepSeek-V4开源：百万上下文，Agent能力比肩顶级闭源模型

DeepSeek-V4正式开源！含V4-Pro（1.6T参数）与V4-Flash（284B参数）双版本，均支持百万token上下文。首创混合注意力架构，Agent能力、世界知识与推理性能全面领先开源模型，数学/代码评测比肩顶级闭源模型。

modelscope

5513 10 11

modelscope

|

3月前

|

人工智能机器人测试技术

从成功率到能力画像：上海AI Lab推出具身操作仿真评测基座EBench

上海AI Lab推出EBench，突破单一成功率评测范式，构建可复现、可拆解的具身操作能力诊断框架。涵盖26类任务、5维能力标签与4类泛化测试，共794条用例，助力精准刻画模型强项、短板及真实泛化性。

modelscope

322 2 2

dt_0173627201

|

1月前

|

存储人工智能自然语言处理

知识库为谁而建？

随着 Agent 的逐步广泛应用，知识库的使用者正在从人变成 Agent。知识库的设计逻辑、维护方式、甚至存在的意义，都需要重新思考。

dt_0173627201

608 10 10

阿里云存储

|

3月前

|

存储人工智能 NoSQL

让 Agent 拥有记忆 —— 表格存储记忆服务邀测指南

本文将介绍表格存储记忆服务的产品能力、接入方式和接口说明，帮助您快速了解和体验表格存储记忆服务的相关功能。

阿里云存储

626 2 4

modelscope

|

2月前

|

开发框架人工智能分布式计算

蚂蚁百灵双响开源：万亿旗舰 Ling-2.6-1T 与高效 Agent 主力 Ling-2.6-flash

蚂蚁百灵开源双模型：Ling-2.6-1T（万亿参数旗舰）专注复杂任务多步执行与高智效比；Ling-2.6-flash（104B/7.4B激活）主打极致推理速度与Agent场景，Token效率达业界领先。二者兼顾“强智能”与“真落地”，全面支持生产级AI工作流。

modelscope

632 1 1

蚂蚁百灵双响开源：万亿旗舰 Ling-2.6-1T 与高效 Agent 主力 Ling-2.6-flash

modelscope

|

6月前

|

JSON 人工智能 API

从对话到Agent：大模型工具调用能力的量化评测

大模型向Agent进化，工具调用是关键。本文介绍EvalScope评测框架，通过双重验证机制，量化评估模型“会不会用、能不能用好”工具，助力开发者打造可靠AI应用。

modelscope

849 4 4

ModelScope模型即服务

热门文章

最新文章

中企投资印度新能源“有戏”吗？

GLM-4V-Flash：智谱 AI 免费开放的图像理解大模型 API 接口

DeepSeek-V4开源：百万上下文，Agent能力比肩顶级闭源模型

MNN-LLM App：在手机上离线运行大模型，阿里巴巴开源基于 MNN-LLM 框架开发的手机 AI 助手应用

嵌入式开发必备！Keil uVision5 C51 V9.61 安装激活 + 汉化完整教程, 含（Keil MDK 5.39）

ModelScope介绍：魔搭社区是什么？在魔搭社区能做哪些事？

Claude Code 四大定制机制完全指南：CLAUDE.md、Hooks、Skills、Subagents 怎么选怎么用

阿里云通义千问向全社会开放！

使用宝塔面板部署 AstrBot 与 NapCat 实现 QQ 机器人

AgentScope：阿里开源多智能体低代码开发平台，支持一键导出源码、多种模型API和本地模型部署

AR眼镜隐私泄露危机：企业级安全方案全解析

AR安全系统如何重塑工业现场的操作规范

AR数字孪生如何重构工业巡检：从被动维修到预测性维护的实战指南

AR数字孪生：让工厂设备“开口说话”的维修革命

虚实共生：AR数字孪生如何重塑工业巡检新范式

企业有多个AI应用，员工却不知道怎么用：一次AI工作助理路由改造实践

告别图纸：AR如何重构工业现场的数据交互逻辑

AR数据叠加如何重塑工业维修：从图纸到实景的零误差指引

ModelScope介绍：魔搭社区是什么？在魔搭社区能做哪些事？

ModelScope是什么？魔搭社区AI模型开源社区，模型即服务（MaaS）的共享平台

相关电子书

更多

低代码开发师（初级）实战教程

冬季实战营第三期：MySQL数据库进阶实战

阿里巴巴DevOps 最佳实践手册

下一篇

一条命令迁移，帮你实现 OpenClaw 与 Hermes Agent 记忆互通！