67个主题,11528 个问题,全新中文大模型多任务基准CMMLU发布

简介: 67个主题,11528 个问题,全新中文大模型多任务基准CMMLU发布

如何评估大模型(LLM)的语言能力和知识储备一直备受学术界和工业界的关注。


MBZUAI,上海交通大学,微软亚洲研究院合作完成了一个全面的中文大模型基准——CMMLU。

它涵盖了 67 个主题,涉及自然科学、社会科学、工程、人文、以及常识等,可以全面地评估大模型在中文知识储备和语言理解上的能力。他们测试了近 20 个先进的大模型包括最新的 GPT4,ChatGLM2 和 Baichuan-7B 等,发现大多数现有模型的难以达到 50%准确率,而随机准确率为 25%。



本文所提出的 CMMLU,这是一个全新全面的中文评估数据集,旨在专门评估 LLM 在中文语言和文化背景下的高级知识和推理能力。

CMMLU 涵盖了 67 个主题(如图 1 所示),从小学到大学或专业水平。包括自然科学,以及人文和社会科学领域的学科,更包含了许多具有中国特色的内容,比如 「中国饮食文化」,「名族学」,「中国驾驶规则」等等。研究团队已完全公开了数据,社区可以自由方便地利用和评估他们的模型在是否适用于以中国为核心的中文人群。完整的学科列表、每个学科测试的概念数量以及问题和答案长度的统计信息均在论文中提供。

为了更深入地了解 LLM 处理中文知识的能力,研究进行了全面的分析实验。研究首先研究模型在各个学科上的表现。所有模型在不同学科上的表现存在不平衡,人文社科学科得分相对较高,而中国特定主题和自然科学得分较低。为了进一步研究这个问题,研究探索了思路链提示词(Chain-of-Thought)和少样本示例(Few-shot)对于帮助模型理解任务和提高推理能力的有效性。此外,团队研究了模型大小对性能的影响,分析了问题长度与难度之间的关系,并探索了现有语言模型尚未有效解决的两种特定问题类型。

CMMLU 测试基准
数据收集
CMMLU 数据集包含 11,528 个问题,涵盖了 67 个学科。每个学科至少有 105 个问题,研究将其分 为包含 5 个问题的训练样本集(few-shot development set),以及包含超过 100 个问题的测试集(test set)。

数据格式
数据集中的每个问题都是一个包含 4 个选项的单选题,图 2 是一个附加了提示的示例。对于数学公式、化学式和一些其他数学表达式,他们使用约一半的 Latex 和一半的纯文本的混合方式,其中只有在一个表达式被广泛使用且不易产生歧义时,才允许使用纯文本(由注释者判断)。例如,水的化学式可以写为纯文本 「H2O」,或者使用 Latex 格式「 $H_{2}O$」。

实验
为了在中文语境下提供现有开源 LLM 在语言理解方面的概览,研究评估约 20 个不同规模、语言方向和阶段(预训练或微调)的先进 LLM,并且分析了它们在这个以知识为中心的基准测试上的性能,并研究了可能影响 LLM 性能的几个因素。

实验设置
研究的目标是评估 LLM 在预训练和 / 或微调过程中所利用的知识。对于开源模型,研究遵循 MMLU 的方法获取提示后的下一个标记的概率,并在 A’、B’、C’和 D’中选择概率最高的选项作为模型的选择。对于 ChatGPT 等非开源模型,研究生成输出并使用一系列正则表达式提取模型的选择。如果正则表达式没有匹配到任何内容,他们会随机选择 A’、B’、C’、D’中的一个选项作为答案,以进行模型间的公平比较。研究对零样本(不输入示例)和少样本(输入少量示例)的设置都进行了实验。

提示词
研究使用短语 「以下是关于 [主题] 的单项选择题,请直接给出正确答案的选项」引入每个问题。对于零样本评估,研究直接在提示后呈现问题。对于少样本评估,他们在问题之前提供多达 5 个带有答案的示例。提示以短语「答案是:」结尾,如图 2 中的示例所示。如果带有少样本示例的文本长度超过模型的最大长度,他们会动态删除最长的(按子标记计算)示例。(最新榜单请看 github)

主要结果
表格 1 显示了在 five-shot 设置下一些模型的性能。可以看出:GPT4 是整体性能最佳的模型,准确度达到 70.95%;在中文特定的 LLM 中,ChatGLM2-6B 模型规模最小却展现出最佳的整体性能,Baichuan-7B 仅次于 ChatGLM2。

从学科类型的角度来看,相对于 STEM 学科,所有模型在人文学科、社会科学和其他学科中表现出更好的性能,他们认为这是由于 STEM 主题的固有难度所致。此外,虽然所有模型在中国特定类别中的表现相对较弱,略微超过其在 STEM 学科中的表现,但明显落后于其他类别。

研究将中文模型 ChatGLM 与多语模型 ChatGPT 在每个学科上进行了比较,并对学科进行了分类,并在图 3 中呈现了结果。具体的数值结果请在论文中查阅。

从图中可以看出,模型的性能并不平衡,虽然在某些学科(如世界历史)表现出色,但在其他学科(如数学)中表现较差。研究团队观察到,对于 ChatGLM 和 ChatGPT 来说,古汉语和大学精算学是最具挑战性的学科,其结果接近随机。而法律与道德基础则是两个模型中最容易的学科之一。

在大多数情况下,ChatGPT 的性能明显优于 ChatGLM。比如说对于机器学习和计算机安全,ChatGPT 的准确度几乎是 ChatGLM 的两倍。然而,在中国特定类别中,ChatGLM 的性能明显接近 ChatGPT。它甚至在中国历史和高中政治中的表现超过了 ChatGPT。他们认为这是因为与 ChatGPT 相比,ChatGLM 在特别是中国特定类别中遇到了不同的数据来源。这些发现表明,为了适应具有不同语言背景的用户,找到适合的数据来源对于多语种 LLM 非常重要。

分析
为了全面了解 LLM 在不同条件下的性能,该研究探究了三个可能提升模型性能的因素和三个可能 降低模型性能的因素。对于大多数分析,他们使用了前 3 个多语种模型:ChatGPT、Falcon-40B、LLaMA-65B,以及前 2 个中文模型:ChatGLM-6B 和 BatGPT-15B。

(具体分析细节请参看论文)
(1) 使用逐步思考的提示词:

研究将提示从 「请直接给出正确答案的选项」修改为 「逐步分析并选出正确答案」。结果呈现在表格 2 中,所有子类别的细分结果请查阅论文。

研究发现,对于没有进行微调的模型(LLaMA 和 Falcon),使用逐步思考的提示并没有 明显提高 STEM 和整体准确度。而对于进行了微调的模型(在表格 2 的第一部分),中文导向的模型(ChatGLM 和 BatGPT)的整体性能下降了约 3%,ChatGPT 的性能也略微下降了 0.2%。这些结果表明,逐步思考的提示确实有助于这些模型回答与 STEM 相关的问题。

(2) 增加输入示例的数量:

图 4 展示了使用不同模型在不同数量少样本示例的平均准确率。明显可以看出,当提供一些示例时,大多数模型的性能有所提高。尽管随着示例数量的增加可能会出现波动,但整体趋势显示出性能的提升。然而,对于 ChatGLM 和 BLOOMZ 模型,0-shot 设置的性能优于少样本设置。研究团队推测这是因为这些模型已经通过预训练或微调过程广泛利用了类似的问题和答案对,已经具备了全面理解问题的能力,不需要示例的支持 [3]。

(3) 在同一模型系列中使用更大尺寸的模型:

研究使用 LLaMA 系列模型的四个不同规模进行了考察:7B、13B(训练于 1.0T tokens)、30B、65B(训练于 1.4T tokens)。这些模型的 0-shot 和 5-shot 设置的整体准确率如图 5 所示。从结果中,研究团队观察到随着模型规模近似翻倍,准确率稳定增加约 5 个百分点。是否有可能拥有 500B 参数的 LLaMA 模型可以达到与 ChatGPT 相当的性能水平?而最近的研究表明,具有更少参数但使用高质量训练数据的模型可以达到与一些更大模型(Falcon-40B 对比 LLaMA-65B)相当甚至更好的结果 [1]。如何高效地进一步提升 LLM 的性能仍然是一个未解决的问题。

(4) 长度较长的问题:

研究将模型的真实标签置信度(四个选项中的 softmax)视为问题难度的估计,并在图 6 中比较了 Falcon-40B 的问题难度与问题长度之间的关系。研究进行了回归分析,发现问题长度与真实标签置信度之间的相关性略微正相关。

(5) 含有否定词的问题:

先前的研究指出语言模型可能在处理否定句时遇到困难 [2]。为了研究该问题在中文语境中是否存在,本文比较了不同模型在包含否定词和不包含否定词的问题子集上的性能。结果在表格 3 中展示。

所有模型在包含否定词的问题上的表现相对较差,强调了大型语言模型的这一常见限制。有趣的是,在没有进行微调的模型上,少样本示例缓解了否定问题的性能下降。这使研究团队推断,这些模型(LLaMA-65B 和 Falcon-40B) 在预训练过程中已经获得了相当多的知识。随后的指导性微调或通过人类反馈进行强化学习可以帮助它们有效地解决否定问题。

(6) 含有子选项的问题:

在各种中文考试中,有一种典型的问题类型称为 「子选项问题」。这些问题包括一个主要陈述和多个子选项,并询问子选项的数量、顺序或选择,需要模型具备更深层的推理和推断能力(见图 7 中的示例)。表格 4 显示了评估结果。

所有这些 LLM 在子选项问题上的表现较弱。ChatGPT 在子选项问题上的性能显著下降约 20%,而其他模型的下降范围在 5% 至 15% 之间。对比多语言模型和中文定向模型,子选项问题与其他问题之间的性能差距较大超过 10%,后者性能差距在 10% 以下。这也许是因为训练数据中的这种情况在中文语言中更为常见。

结论
本文介绍了 CMMLU,这是一个具有开创性意义的基准测试,旨在评估中文多任务语言理解能 力。研究的实验发现揭示了现有大型语言模型中存在的改进机会。通过广泛的分析,研究确定了影响模型性能的几个因素,并提出了改进 LLM 的可行方向。研究团队相信。他们的基准数据集和分析洞察力将使研究人员能够有效评估和设计中文 LLM。

更多的研究内容可以查阅原始论文。

相关文章
|
人工智能 自然语言处理 物联网
中文LLaMA模型和指令精调的Alpaca大模型:中文数据进行二次预训练,进一步提升了中文基础语义理解能力
中文LLaMA模型和指令精调的Alpaca大模型:中文数据进行二次预训练,进一步提升了中文基础语义理解能力
中文LLaMA模型和指令精调的Alpaca大模型:中文数据进行二次预训练,进一步提升了中文基础语义理解能力
|
2月前
|
数据采集 人工智能 自然语言处理
FineWeb 2:开源的多语言预训练数据集,覆盖超过 1000 种语言
FineWeb 2 是由 Hugging Face 推出的多语言预训练数据集,覆盖超过 1000 种语言,支持多种 NLP 任务,如机器翻译和文本分类。该数据集通过定制化的数据处理流程,包括语言识别、去重、内容过滤和 PII 匿名化,提升了多语言模型的性能和泛化能力。
115 5
FineWeb 2:开源的多语言预训练数据集,覆盖超过 1000 种语言
|
6月前
|
人工智能 自然语言处理 测试技术
权重、代码、数据集全开源,性能超越Mistral-7B,苹果小模型来了
【8月更文挑战第12天】DCLM是由多家机构联合推出的全新测试平台,旨在通过优化数据集增强语言模型性能。其核心贡献包括一个含240万亿token的标准化语料库及有效的预训练方案。DCLM-BASELINE数据集成功训练出7B参数模型,在MMLU上5-shot准确率达64%,超越Mistral-7B,且计算成本降低40%。尽管存在局限,但该项目已全开源,为社区提供宝贵资源,推动语言模型发展。[论文链接](https://arxiv.org/pdf/2406.11794)
193 60
|
5月前
Meta浙大校友让评估模型自学成才,数据全合成无需人工标注,训练Llama 3 70B超过405B
【9月更文挑战第21天】近日,一篇名为《Self-Taught Evaluators》的论文引起了广泛关注。该论文由Meta与浙江大学校友合作完成,提出一种创新的模型评估方法,通过让评估模型自学习训练,无需依赖昂贵且易过时的人工标注数据。此方法利用合成数据,通过迭代生成对比模型输出并训练基于大型语言模型的评估器,从而实现自我迭代改进。研究结果显示,在不使用任何标注偏好数据的情况下,这种方法显著提升了评估模型的性能,甚至超越了一些现有模型。尽管如此,该方法在实际应用中仍需进一步验证。论文地址:https://arxiv.org/abs/2408.02666
100 4
|
9月前
|
人工智能 编解码 自然语言处理
OpenAI 全新发布文生视频模型 Sora,支持 60s 超长长度,有哪些突破?将带来哪些影响?
OpenAI 全新发布文生视频模型 Sora,支持 60s 超长长度,有哪些突破?将带来哪些影响?
203 1
|
6月前
|
数据采集 人工智能 自然语言处理
Llama 3.1发布:4050亿参数模型,迄今为止最强的开源大模型之一
Meta宣布发布Llama 3.1 405B,这一目前公开的最大且最先进的语言模型,标志着开源语言模型新时代的到来。Llama 3.1 405B不仅在常识理解、数学、工具使用及多语言翻译等功能上媲美顶尖AI模型,其8B和70B版本亦支持多种语言,拥有长达128K的上下文理解能力。该模型在150多个多语言基准测试中表现出色,并经过广泛的人工评估。为克服大规模训练挑战,Meta采用标准解码器架构和迭代后训练策略,大幅提升了数据质量和模型性能。此外,Llama 3.1通过监督微调、拒绝采样和直接偏好优化等手段提高了模型对指令的响应性和安全性。
130 2
|
9月前
|
测试技术
Vript:最为详细的视频文本数据集,每个视频片段平均超过140词标注 | 多模态大模型,文生视频
[Vript](https://github.com/mutonix/Vript) 是一个大规模的细粒度视频文本数据集,包含12K个高分辨率视频和400k+片段,以视频脚本形式进行密集注释,每个场景平均有145个单词的标题。除了视觉信息,还转录了画外音,提供额外背景。新发布的Vript-Bench基准包括三个挑战性任务:Vript-CAP(详细视频描述)、Vript-RR(视频推理)和Vript-ERO(事件时序推理),旨在推动视频理解的发展。
166 1
Vript:最为详细的视频文本数据集,每个视频片段平均超过140词标注 | 多模态大模型,文生视频
|
自然语言处理 人工智能
中文竞技场大模型测评后续之模型自动对话
中文竞技场大模型测评延续中,模型自动对话场景测评
591 0
中文竞技场大模型测评后续之模型自动对话
|
人工智能 自然语言处理 达摩院
达摩院发布大模型测试基准:GPT-4勉强及格,其他模型悉数落败
达摩院发布大模型测试基准:GPT-4勉强及格,其他模型悉数落败
337 0
|
机器学习/深度学习 人工智能 自然语言处理
USB:首个将视觉、语言和音频分类任务进行统一的半监督分类学习基准
USB:首个将视觉、语言和音频分类任务进行统一的半监督分类学习基准
143 0
USB:首个将视觉、语言和音频分类任务进行统一的半监督分类学习基准