📈 模型评估

简介: 模型评估涵盖基础能力、对齐性与效率三大维度,涉及语言理解、知识问答、推理代码等任务,常用MMLU、C-Eval、GSM8K等基准,结合Hugging Face工具实现自动化评测,面试关注幻觉检测、指标设计与人工评估权衡。

🎯 概述
模型评估是衡量大模型性能的关键环节,涉及能力评估、安全性评估和效率评估等多个维度。
🏗️ 评估维度
1️⃣ 基础能力评估
● 语言理解:GLUE、SuperGLUE
● 知识问答:MMLU、C-Eval、CMMLU
● 推理能力:GSM8K、MATH、HumanEval
● 代码能力:HumanEval、MBPP、CodeContests
2️⃣ 对齐评估
● 有用性:帮助用户完成任务的能力
● 无害性:避免有害或不当输出
● 诚实性:承认知识边界,避免幻觉
3️⃣ 效率评估
● 推理延迟:首token延迟、token间延迟
● 吞吐量:tokens/second
● 资源消耗:显存使用、功耗
📊 评估基准
基准 评估能力 语言 样本数
MMLU 多学科知识 英文 15,908
C-Eval 中文综合能力 中文 13,948
GSM8K 数学推理 英文 8,500
HumanEval 代码生成 英文 164
🎯 评估方法

使用Hugging Face Evaluate库

import evaluate

加载评估指标

bleu = evaluate.load("bleu")
rouge = evaluate.load("rouge")
accuracy = evaluate.load("accuracy")

评估示例

predictions = ["Hello world", "How are you"]
references = [["Hello world"], ["How are you today"]]

bleu_score = bleu.compute(predictions=predictions, references=references)
rouge_score = rouge.compute(predictions=predictions, references=references)
🎯 面试重点

  1. 如何评估大模型的幻觉问题?
  2. MMLU和C-Eval的区别?
  3. 如何设计领域特定的评估指标?
  4. 人工评估vs自动评估的权衡?
目录
相关文章
|
7月前
|
机器学习/深度学习 人工智能 缓存
让AI评测AI:构建智能客服的自动化运营Agent体系
大模型推动客服智能化演进,从规则引擎到RAG,再到AI原生智能体。通过构建“评估-诊断-优化”闭环的运营Agent,实现对话效果自动化评测与持续优化,显著提升服务质量和效率。
3305 86
让AI评测AI:构建智能客服的自动化运营Agent体系
|
Java Android开发
TextView设置跑马灯效果
TextView设置跑马灯效果
184 0
|
3月前
|
人工智能 IDE 前端开发
|
6月前
|
存储 机器学习/深度学习 编解码
🚀 预训练技巧
预训练是大模型能力基石,涵盖混合精度、分布式训练等核心技术。混合精度通过FP16/BF16加速计算、节省显存;分布式训练采用数据、模型、流水线并行突破算力与显存瓶颈;DeepSpeed的ZeRO技术降低显存冗余,支持千亿参数训练;FlashAttention优化注意力计算效率。
478 0
|
3月前
|
人工智能 前端开发 Serverless
vLLM + SGLang + Ollama 自动适配!阿里云 Qwen3 部署智能选引擎
阿里云Qwen3正式开源8款混合推理模型(含2款MoE、6款Dense),支持119种语言,适配vLLM/SGLang/Ollama。依托函数计算FC与FunctionAI平台,提供模型服务与应用模板两种Serverless部署方式,最低GPU配置即可快速体验。
1091 20
|
机器学习/深度学习 自然语言处理 算法
大模型微调PPO原理——零基础吃透RLHF核心算法
本文通俗解析PPO算法——RLHF微调的核心技术:以“人类反馈→奖励模型→策略优化”三步闭环,辅以“近端约束”保障稳定,让大模型不仅答得对,更答得让人满意。零基础也能轻松理解+上手实操。
|
6月前
|
存储 安全 定位技术
交友APP开发搭建/社交软件同城交友推荐匹配
打造社交APP最小可行产品(MVP):支持手机号/微信登录,完善个人资料与兴趣标签。核心匹配采用滑动交友、问卷配对及兴趣群组模式,双向匹配后可聊天。集成腾讯云IM、地图、云存储、短信验证等第三方服务,快速部署上线。通过冷启动运营获取种子用户,结合活动与数据驱动持续迭代优化。
1064 1
交友APP开发搭建/社交软件同城交友推荐匹配
|
6月前
|
存储 缓存 关系型数据库
常见索引类型
本文档系统梳理了数据库索引的多维度分类:按存储结构分为聚簇与非聚簇索引,按约束性分为普通、唯一及主键索引,按字段数量分为单列与组合索引,按功能支持全文与空间索引,按底层结构涵盖B+树与哈希索引,详述其定义、适用场景及核心特性。
|
8月前
|
机器学习/深度学习 数据采集 监控
107_DPO:直接偏好优化
在大型语言模型(LLM)的发展历程中,如何让模型输出与人类偏好保持一致一直是研究的核心挑战。从早期的监督微调(SFT)到基于人类反馈的强化学习(RLHF),再到如今的直接偏好优化(DPO),对齐技术经历了显著的迭代与创新。
1454 1
|
8月前
|
数据采集 人工智能 监控
61_自定义基准:构建专属评测体系
在大型语言模型(LLM)快速发展的今天,通用基准测试如MMLU、C-Eval等已成为评估模型能力的重要工具。然而,随着LLM在各个行业的深度应用,通用基准往往无法准确反映模型在特定领域、特定任务上的真实表现。2025年,构建企业或组织专属的自定义评测基准已成为大模型落地应用的关键环节。
574 0