在ModelScope上实现模型评测与压测服务化:PivotEval

简介: 魔搭推出PivotEval模型评测服务,一键完成模型效果与性能压测。无需搭建环境、下载数据集或写脚本,只需提供API地址并选择基准(如MMLU、GSM8K等),平台自动执行评测,生成交互式可视化报告,支持在线分享与本地复现。

评测大模型,绕不开两个问题:模型效果好不好?推理服务性能够不够?但回答这两个问题的前置成本不低,搭建评测环境、下载和处理数据集、对齐评测标准、编写压测脚本……每一步都不算难,但每一步都需要时间。尤其当你想在多个基准上系统评测、或者在不同并发档位下压测 API 性能时,重复劳动会迅速累积。

为了将模型的评测门槛降低,魔搭推出了 PivotEval 模型评测服务,基于这一全新服务,评测链路能实现大幅度的简化:你提供模型 API 地址,并选择评测内容,剩下的都交给平台。不用在本地安装评测框架,不用自己准备数据集,评测完成后自动生成可交互的可视化报告,还能直接实现在线分享。

如何开始

1. 在ModelScope上进入PivotEval评测服务页面:

此外,你也可以直接从支持评测的模型详情页一键跳转:

2. 创建一个评测任务

你需要填写模型API的接口信息:PivotEval 支持 OpenAI 兼容和 Anthropic 兼容两种模型 API 协议。填入你的 BaseUrl(模型服务地址)和模型名称即可。例如,如果选用魔搭的 API-Provider 来接入外部模型API,按照下图所示填写即可(API-Provider的文档可参见https://modelscope.cn/docs/model-service/API-Inference/api-provider)。

3. 选择”模型评估”或”性能测试”

4. 配置评测参数

  • 选择评测数据集:系统内置 30+个业界主流基准,包括 MMLU、CMMLU、C-Eval、GSM8K 等,更多基准benchmark还在接入中。对于内置的benchmark,无需额外下载和处理。如深入了解特定基准数据,点击“详情”就有详细的解释。

  • 配置模型生成参数(可选):输出长度调节max_tokens、控制温度temperature、采样系数top_p等核心参数都支持。

5. 点击“开始评测”!

评测完成后,你会拿到什么

评测结束后会输出一份 Markdown 格式的结构化结果,指标清晰,方便存档和横向对比。同时还有一份交互式 HTML 报告,内嵌动态图表,支持点击交互、按不同维度拆开看。这方便您直接分享针对性的评测报告,不用再手动整理数据做图。

可视化评测报告

同时每一步的执行记录都有完整日志留存,支持评测运行过程中通过进度看板随时了解任务状态,以及通过log更好理解评测的过程以及进行可能的问题调查。

两大核心能力

模型评估

适用于模型选型、能力分析、跨模型对比等场景。

评测报告不只给出一个准确率数字。系统会按题目难度梯度拆解模型表现——从基础认知题到复杂推理题,差距一目了然。还会给出知识领域分布分析,哪些领域强、哪些领域需要补强,也很清楚。

评测覆盖 30 多个标准基准,文本理解和多模态场景都有。生成参数(temperature、top_p、max_tokens 等)可以自行配置,有特殊评测需求的话,也支持通过扩展接口自行定制。

性能测试

适用于验证推理服务能扛多大并发、响应速度够不够快。

支持阶梯式自动加压,例如从 1 并发递增到 2、4、8,一次配置即可完成多组并发测试,结果自动对比,不必重复创建任务。也支持通过速率控制来做稳定的流量注入。

核心性能指标覆盖:

底层开源,评测可复现

PivotEval 评测服务基于ModelScope社区开源的 EvalScope 框架构建。评测流程完全透明,所有评测结果,都可以使用 EvalScope 在本地复现。

如果你有定制化的评测需求,比如自定义数据集或评分逻辑,也可以直接基于 EvalScope 进行开发:

PivotEval服务将持续跟进 EvalScope 的最新评测能力,更多功能正在迭代中。

常见问题

1. 所有模型都支持评测吗?

并非所有模型都支持评测,当前仅支持评测文本生成(LLM)模型及多模态理解(VLM)模型,且需要您自行准备OpenAI兼容或Anthropic兼容的API。

用户可通过在模型库列表页左上角筛选项,发现平台推荐的可评测模型,进入具体模型详情页通过右上角评测按钮快速发起。

2. 性能测试和模型评测有什么区别?

模型评测关注模型的能力表现(如准确率、F1 分数等),使用标准数据集进行评估;性能测试关注推理服务的性能指标(如吞吐量、延迟等),通过并发请求模拟真实负载场景。

3. 评测任务失败后如何处理?

首先查看任务日志了解失败原因。如果是临时性错误(如网络波动),可使用”从失败处继续”功能从中断位置恢复。如果是配置错误,需修正配置后重新创建任务。

使用过程中有任何建议或问题,欢迎随时反馈给团队。

目录
相关文章
|
20天前
|
机器学习/深度学习 物联网 Serverless
Qwen3.6发布27B Dense模型,提供旗舰级编程能力,魔搭Serverless训练服务Day0支持
Qwen3.6-27B是通义千问全新推出的27B Dense架构开源大模型,部署友好、推理高效,智能体编程能力达旗舰水平(Terminal-Bench打平Claude 4.5 Opus),原生支持多模态与思考/非思考双模式,已上线魔搭并获Serverless训练Day-0支持。
1213 3
|
19天前
|
机器学习/深度学习 缓存 测试技术
DeepSeek-V4开源:百万上下文,Agent能力比肩顶级闭源模型
DeepSeek-V4正式开源!含V4-Pro(1.6T参数)与V4-Flash(284B参数)双版本,均支持百万token上下文。首创混合注意力架构,Agent能力、世界知识与推理性能全面领先开源模型,数学/代码评测比肩顶级闭源模型。
2967 10
|
4月前
|
JSON 人工智能 API
从对话到Agent:大模型工具调用能力的量化评测
大模型向Agent进化,工具调用是关键。本文介绍EvalScope评测框架,通过双重验证机制,量化评估模型“会不会用、能不能用好”工具,助力开发者打造可靠AI应用。
569 4
|
13天前
|
存储 人工智能 NoSQL
让 Agent 拥有记忆 —— 表格存储记忆服务邀测指南
本文将介绍表格存储记忆服务的产品能力、接入方式和接口说明,帮助您快速了解和体验表格存储记忆服务的相关功能。
146 2
|
6天前
|
物联网 测试技术
SenseNova U1开源:原生统一多模态理解与生成,8B参数达到同量级SOTA
商汤日日新开源SenseNova U1 Lite系列(8B参数),基于自研NEO-unify架构,原生统一多模态理解、推理与生成,摒弃VE/VAE,重构统一表征空间。性能达同量级开源SOTA,部分指标比肩大型闭源模型,并支持8步LoRA加速推理。
142 2
|
14天前
|
人工智能 Java 数据库
DeepAgents 人工介入实战|LangGraph 实现 Agent 高危工具人工审批
本文详解基于 LangChain+LangGraph+DeepAgents 实现 Python 智能体人工介入实战,配置高风险工具中断审批、状态检查点保存与恢复,支持同意 / 拒绝 / 参数编辑,对比 Spring AI Alibaba 方案,附完整可运行源码与生产落地建议。
174 0
|
13天前
|
人工智能 缓存 自然语言处理
Harness Engineering:AICode 的灵魂——Ooder A2UI 从难产到重生的深度实践
Ooder A2UI 从难产到重生,通过 Harness Engineering 工程哲学,将 LLM 的不确定性转化为可量化的置信度,结合渐进式披露、多引擎协作与反馈闭环,实现 AI 原生编程的可控落地。(239字)

热门文章

最新文章