模型评估

简介: 模型评估涵盖能力、对齐与效率三大维度,涉及语言理解、知识问答、推理代码等任务,常用MMLU、C-Eval、GSM8K等基准,结合Hugging Face工具实现自动评测,面试关注幻觉检测、指标设计与人工协同评估。

🎯 概述
模型评估是衡量大模型性能的关键环节,涉及能力评估、安全性评估和效率评估等多个维度。
🏗️ 评估维度
1️⃣ 基础能力评估
● 语言理解:GLUE、SuperGLUE
● 知识问答:MMLU、C-Eval、CMMLU
● 推理能力:GSM8K、MATH、HumanEval
● 代码能力:HumanEval、MBPP、CodeContests
2️⃣ 对齐评估
● 有用性:帮助用户完成任务的能力
● 无害性:避免有害或不当输出
● 诚实性:承认知识边界,避免幻觉
3️⃣ 效率评估
● 推理延迟:首token延迟、token间延迟
● 吞吐量:tokens/second
● 资源消耗:显存使用、功耗
📊 评估基准
基准 评估能力 语言 样本数
MMLU 多学科知识 英文 15,908
C-Eval 中文综合能力 中文 13,948
GSM8K 数学推理 英文 8,500
HumanEval 代码生成 英文 164
🎯 评估方法

使用Hugging Face Evaluate库

import evaluate

加载评估指标

bleu = evaluate.load("bleu")
rouge = evaluate.load("rouge")
accuracy = evaluate.load("accuracy")

评估示例

predictions = ["Hello world", "How are you"]
references = [["Hello world"], ["How are you today"]]

bleu_score = bleu.compute(predictions=predictions, references=references)
rouge_score = rouge.compute(predictions=predictions, references=references)
🎯 面试重点

  1. 如何评估大模型的幻觉问题?
  2. MMLU和C-Eval的区别?
  3. 如何设计领域特定的评估指标?
  4. 人工评估vs自动评估的权衡?
相关文章
|
1月前
|
机器学习/深度学习 存储 知识图谱
知识蒸馏
知识蒸馏是一种模型压缩技术,通过让小模型(学生)模仿大模型(教师)的输出或中间特征,实现性能逼近甚至超越。核心方法包括基于软标签的Hinton蒸馏、带温度的softmax平滑分布、以及利用隐藏层特征的特征蒸馏。分为黑盒(仅用输出)与白盒(访问内部)两种模式,广泛用于加速推理与提升小模型泛化能力。(238字)
|
缓存 安全 SoC
来看看ARM gicv2/gicv3的详解
来看看ARM gicv2/gicv3的详解
1360 0
|
移动开发 小程序
关于微信公众号插入外部链接
关于微信公众号插入外部链接
2070 0
关于微信公众号插入外部链接
|
存储 缓存 Kubernetes
秒级启动万个容器,探秘阿里云容器镜像加速黑科技
阿里云容器与存储团队展开合作,利用DADI加速器支持镜像按需读取和P2P分发,实现3.01秒启动10000个容器,完美杜绝容器冷启动的数分钟漫长等待,以及镜像仓库大规模并行分发场景下的网络拥堵。
5730 0
秒级启动万个容器,探秘阿里云容器镜像加速黑科技
|
1月前
|
人工智能 数据处理 Apache
Forrester发布流式数据平台报告:Flink 创始团队跻身领导者行列,实时AI能力获权威认可
Ververica,由Apache Flink创始团队创立、阿里云旗下企业,首次入选Forrester 2025流式数据平台领导者象限,凭借在实时AI与流处理领域的技术创新及全场景部署能力获高度认可,成为全球企业构建实时数据基础设施的核心选择。
122 9
Forrester发布流式数据平台报告:Flink 创始团队跻身领导者行列,实时AI能力获权威认可
|
1月前
|
安全 C++
📈 模型评估
模型评估涵盖能力、安全与效率三大维度,包括语言理解、知识问答、推理代码等基础能力,对齐性及推理延迟、吞吐量等效率指标。常用MMLU、C-Eval、GSM8K等基准,结合Hugging Face工具实现自动化评估,面试关注幻觉检测、指标设计与人工vs自动权衡。
|
1月前
|
存储 搜索推荐 数据库
倒排索引:如何从海量数据中查询同时带有「极」和「客」的唐诗?
本文介绍倒排索引技术,通过将内容作为关键词建立索引,实现高效检索。对比正排索引的O(n)遍历查询,倒排索引可在O(1)时间内定位含指定字的唐诗,并通过归并有序链表快速求交集,解决“同时含‘极’和‘客’”等多条件查询问题,广泛应用于搜索引擎、数据库全文检索等场景。
|
7月前
|
存储 传感器 安全
数据不是“铁打的”,从出生到销毁它也有生命周期
数据不是“铁打的”,从出生到销毁它也有生命周期
546 1
|
10月前
|
人工智能 数据可视化 API
36.7K star!拖拽构建AI流程,这个开源LLM应用框架绝了!
`Flowise` 是一款革命性的低代码LLM应用构建工具,开发者通过可视化拖拽界面,就能快速搭建基于大语言模型的智能工作流。该项目在GitHub上线不到1年就斩获**36.7K星标**,被开发者誉为"AI时代的乐高积木"。
680 8
|
5月前
|
存储 安全 网络安全
都在谈数据安全,可你真的会做数据全生命周期防护吗?
数据安全远不止防火墙和杀毒软件,而是贯穿数据从产生到销毁的全过程。本文详解数据全生命周期保护,涵盖数据产生、存储、传输、处理、使用、共享、归档与销毁七大阶段,剖析各环节风险与防护要点,帮助企业构建系统性防护体系,真正守住数据安全底线。
都在谈数据安全,可你真的会做数据全生命周期防护吗?