AI 模型的基准测试

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
NLP自然语言处理_基础版,每接口每天50万次
简介: 在评估一个模型的时候,仅通过ROUGE、BLEU SCORE评价模型还是太单薄了,并不能全面的反馈模型的能力。在相完整评估一个模型的能力的时候,最重要的是提供一套有效的评估模型。现在常见的模型的基准测试有 GLUE、SuperGLUE、HELM、MMLU等等。

在评估一个模型的时候,仅通过ROUGE、BLEU SCORE评价模型还是太单薄了,并不能全面的反馈模型的能力。在相完整评估一个模型的能力的时候,最重要的是提供一套有效的评估模型。现在常见的模型的基准测试有 GLUE、SuperGLUE、HELM、MMLU等等。

自然语言处理能力的基准测试:GLUE和SuperGLUE

GLUE(General Language Understanding Evaluation,通用语言理解评估)是2018年有纽约大学、华盛顿大学等机构一起创建的自然语言任务的集合。GLUE包含了 9 项任务,分布如下:

  • CoLA(The Corpus of Linguistic Acceptability),该任务主要是评价一个句子的语法是否正确,是单句的文本二分类任务,该数据集是纽约大学发布的,语料来自语言理论的书籍和期刊。
  • SST(The Stanford Sentiment Treebank),斯坦福大学发布的一个情感分析数据集,主要是来自电影评论做的情感分类,SST 也是单句文本分类任务,其中 SST-2 是二分类、SST-5 是五分类,五分类在分类情感上区分的更加细致。
  • MRPC(Microsoft Research Paraphrase Corpus),是微软发布的数据集,语料来自于新闻中的句子,通过程序自动抽取句子然后经过人工标注句子在语义上的等从而判断相似性和释义性,也属于句子对的文本二分类任务。
  • STS-B(Semantic Textual Similarity Benchmark),语义文本相似性基准。语料来自新闻标题、视频标题、图形标题以及自然语言推断数据中提取的句子对集合,每对都是经过人类标注相似性评分 0 到 5,本质上是一个回归问题,但依然可以用分类的方法做,因此可以归类为句子对的文本五分类任务。
  • QQP(Quora Question Pairs),是问答社区Quora问题对的集合,也是相似性和释义任务。主要是确定一堆问题在语义上是否等效,属于句子对的文本二分类任务。
  • MNLI(Multi-Genre Natural Language Inference),纽约大学发布的,是一个文本蕴含的任务,在给定假设语句(前提)下,任务预测前题是判断假设是否成立。前提语句是从数十种不同来源收集的,包括转录的语音、小说和政府报告。该任务属于句子对的文本三分类问题。
  • QNLI(Question Natural Language Inference)是从The Stanford Question Answering Dataset(斯坦福问答数据集, SQuAD 1.0)转换而来的,给定一个问句,需要判断给定文本中是否包含该问句的正确答案,属于句子对的文本二分类任务。
  • RTE(Recognizing Textual Entailment),自然语言推断然任务,通过整合一系列的年度文本蕴含挑战赛的数据集进行整合合并而来。数据原始从新闻、维基百科中构建而来/RTE只需要判断两个句子是否能够推断或对齐,属于句子对的文本二分类任务。
  • WNLI(Winograd Natural Language Inference),自然语言推断任务,数据集来自Winograd Schema Challenge竞赛数据的转换,该竞赛是一项阅读理解任务,其中系统必须读一个带有代词的句子,并从列表中找到代词的指代对象。

image.png

图 1 2023 年 8 月份 GLUE 评估结果

随着大模型能力越来越强大,GLUE的九大任务中已经有很多表现出了模型已经超越了人类的基准,但是这并不能说明机器掌握了英语。因此为了避免类似的误导的结果,SuperGLUE 出现了。SuperGLUE 继承了 GLUE 的基础设计,仅保留了 GLUE 九项任务中的两项分别是RTE和WSC(也就是GLUE中的WNLI模式),还引入了五个难度更大的新任务,这些任务的选择标准包括为了实现难度和多样性的最大化。

  • CB(CommitmentBank),一个短文语料库,语料来自华尔街日报、英国国家语料库的小说、switchboard。评估指标采用准确的、F1 分数,其中 F1 分数是每类 F1 分数的不加权的平均数。
  • COPA(Choice Of Plausible Alternatives),这是一个因果推到任务,会向系统提供一个前提句子和两个可能的选项。采取准确度作为评估指标
  • GAP(Gendered Ambiguous Pronoun Coreference),是一个性别方面平衡的语料,主要是为了测试识别有歧义代词的指代目标的能力。评估指标是 F1、偏见,即在测试样本的男性代词和女性代词子集上的 F1 分数的比值。
  • MultiRC(Multi-Sentence Reading Comprehension),是一项真假问答任务。每个样本都包含一个上下文段落、一个有关该段落的问题和一个该问题的可能答案的列表,这些答案必须标注了真或假。评估指标是每个问题的正确答案集的 macro-average F1 分数(F1m)和在所有答案选项上的 binary F1 分数(F1a)。
  • WiC(Word-in-Context),针对的是词义消岐任务,该任务被设定成了在句子对上的二元分类问题。采用准确度作为指标。

image.png

图 2 2023年 8 月份SuperGLUE的结果

但是 GLUE、SuperGLUE 都是针对英文的语言能力测试,我国的一些研究机构、大学也提出了对应的中文能力的基准测试 CLUE、SuperCLUE,如果需要测试模型中文语言能力可以采购这两个模型。

模型的知识获取能力基准测试:MMLU、C-Eval

MMLU(Massive Multitask Laguage Understanding),是一个知识获取能力评价模型,通过零样本、少样本来衡量模型在预训练期间获得的知识,这种方式更贴合于对于人类的评估过程。MMLU提供了57个任务涉及到了初等数学、美国历史、计算机科学、法律、伦理道德等。

image.png

图 3 MMLU 测试结果

清华大学和上海交通大学联合发布了中文 MMLU:C-Eval基准测试。C-Eval包含了13948个多项选择题,涵盖了52个不同的学科和四个难度级别,如图 4 所示。

C-Eval 网站接受结果提交,同时也会对一下常用模型进行测试,并给出评估结果排名,如图 5 所示,详情可以去官方网站查看https://cevalbenchmark.com/index.html。

image.png

图 5 2023年 8 月 C-Eval 测试结果

多指标综合基准测试:HELM

HELM(Holistic Evaluation of Luaguage Model)从名字上就能看出这是一个以全面评估语言模型的基准测试,其包含了七个评估指标,分别是精准度、校验、鲁棒性、公平、偏见、毒性和效率(原味ccuracy, calibration, robustness, fairness, bias, toxicity, and efficiency),提高模型的透明度。HELM力求一个广泛的覆盖,建立一个多评估指标的评估方法,并给出标准化的场景完成全面的评估。

image.png

图 6 HELM 的场景和指标映射关系

无论怎么选择,对于模型来说基准测试中的数据对于模型是第一次遇见将会使得结果更加的准确,也能更客观的反馈模型的能力。

目录
相关文章
|
6天前
|
机器学习/深度学习 人工智能 自然语言处理
CogAgent-9B:智谱 AI 开源 GLM-PC 的基座模型,专注于预测和执行 GUI 操作,可应用于自动化交互任务
CogAgent-9B 是智谱AI基于 GLM-4V-9B 训练的专用Agent任务模型,支持高分辨率图像处理和双语交互,能够预测并执行GUI操作,广泛应用于自动化任务。
40 12
CogAgent-9B:智谱 AI 开源 GLM-PC 的基座模型,专注于预测和执行 GUI 操作,可应用于自动化交互任务
|
15天前
|
人工智能
AniDoc:蚂蚁集团开源 2D 动画上色 AI 模型,基于视频扩散模型自动将草图序列转换成彩色动画,保持动画的连贯性
AniDoc 是一款基于视频扩散模型的 2D 动画上色 AI 模型,能够自动将草图序列转换为彩色动画。该模型通过对应匹配技术和背景增强策略,实现了色彩和风格的准确传递,适用于动画制作、游戏开发和数字艺术创作等多个领域。
83 16
AniDoc:蚂蚁集团开源 2D 动画上色 AI 模型,基于视频扩散模型自动将草图序列转换成彩色动画,保持动画的连贯性
|
10天前
|
数据采集 人工智能 自然语言处理
Midscene.js:AI 驱动的 UI 自动化测试框架,支持自然语言交互,生成可视化报告
Midscene.js 是一款基于 AI 技术的 UI 自动化测试框架,通过自然语言交互简化测试流程,支持动作执行、数据查询和页面断言,提供可视化报告,适用于多种应用场景。
110 1
Midscene.js:AI 驱动的 UI 自动化测试框架,支持自然语言交互,生成可视化报告
|
25天前
|
人工智能 安全 测试技术
EXAONE 3.5:LG 推出的开源 AI 模型,采用 RAG 和多步推理能力降低模型的幻觉问题
EXAONE 3.5 是 LG AI 研究院推出的开源 AI 模型,擅长长文本处理,能够有效降低模型幻觉问题。该模型提供 24 亿、78 亿和 320 亿参数的三个版本,支持多步推理和检索增强生成技术,适用于多种应用场景。
76 9
EXAONE 3.5:LG 推出的开源 AI 模型,采用 RAG 和多步推理能力降低模型的幻觉问题
|
27天前
|
机器学习/深度学习 人工智能
SNOOPI:创新 AI 文本到图像生成框架,提升单步扩散模型的效率和性能
SNOOPI是一个创新的AI文本到图像生成框架,通过增强单步扩散模型的指导,显著提升模型性能和控制力。该框架包括PG-SB和NASA两种技术,分别用于增强训练稳定性和整合负面提示。SNOOPI在多个评估指标上超越基线模型,尤其在HPSv2得分达到31.08,成为单步扩散模型的新标杆。
66 10
SNOOPI:创新 AI 文本到图像生成框架,提升单步扩散模型的效率和性能
|
27天前
|
人工智能 搜索推荐 开发者
Aurora:xAI 为 Grok AI 推出新的图像生成模型,xAI Premium 用户可无限制访问
Aurora是xAI为Grok AI助手推出的新图像生成模型,专注于生成高逼真度的图像,特别是在人物和风景图像方面。该模型支持文本到图像的生成,并能处理包括公共人物和版权形象在内的多种图像生成请求。Aurora的可用性因用户等级而异,免费用户每天能生成三张图像,而Premium用户则可享受无限制访问。
65 11
Aurora:xAI 为 Grok AI 推出新的图像生成模型,xAI Premium 用户可无限制访问
|
1月前
|
人工智能 编解码 网络架构
GenCast:谷歌DeepMind推出的AI气象预测模型
GenCast是由谷歌DeepMind推出的革命性AI气象预测模型,基于扩散模型技术,提供长达15天的全球天气预报。该模型在97.2%的预测任务中超越了全球顶尖的中期天气预报系统ENS,尤其在极端天气事件的预测上表现突出。GenCast能在8分钟内生成预报,显著提高预测效率,并且已经开源,包括代码和模型权重,支持更广泛的天气预报社区和研究。
170 14
GenCast:谷歌DeepMind推出的AI气象预测模型
|
1天前
|
人工智能 Python
ImBD:复旦联合华南理工推出 AI 内容检测模型,快速辨别文本内容是否为 AI 生成
ImBD是一款由复旦大学、华南理工大学等机构联合推出的AI内容检测器,能够快速识别机器修订文本,适用于多种场景,显著提升检测性能。
18 6
ImBD:复旦联合华南理工推出 AI 内容检测模型,快速辨别文本内容是否为 AI 生成
|
30天前
|
机器学习/深度学习 人工智能 编解码
【AI系统】Transformer 模型小型化
本文介绍了几种轻量级的 Transformer 模型,旨在解决传统 Transformer 参数庞大、计算资源消耗大的问题。主要包括 **MobileVit** 和 **MobileFormer** 系列,以及 **EfficientFormer**。MobileVit 通过结合 CNN 和 Transformer 的优势,实现了轻量级视觉模型,特别适合移动设备。MobileFormer 则通过并行结构融合了 MobileNet 和 Transformer,增强了模型的局部和全局表达能力。
61 8
【AI系统】Transformer 模型小型化
|
28天前
|
存储 人工智能 PyTorch
【AI系统】模型转换流程
本文详细介绍了AI模型在不同框架间的转换方法,包括直接转换和规范式转换两种方式。直接转换涉及从源框架直接生成目标框架的模型文件,而规范式转换则通过一个中间标准格式(如ONNX)作为桥梁,实现模型的跨框架迁移。文中还提供了具体的转换流程和技术细节,以及模型转换工具的概览,帮助用户解决训练环境与部署环境不匹配的问题。
45 5
【AI系统】模型转换流程