备案控制台

开发者社区 ModelScope模型即服务文章正文

二、模型评估

2023-01-15 101

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

交互式建模 PAI-DSW，每月250计算时 3个月

模型训练 PAI-DLC，5000CU*H 3个月

模型在线服务 PAI-EAS，A10/V100等 500元 1个月

简介： 模型评估的相关问题

1、区别欧式距离和余正弦距离？

2、无偏估计和有偏估计的区别？

4.模型评估中不同的指标应用在什么场景中？

（1）准确率acc（分类问题）应用于样本类别比例平衡时，平均准确率，应用在不同类别样本比例非常不平衡时。

（2）针对实际的需求，权衡不同阈值下的召回率和精确率（PR曲线），使用一个指标调和平均值来综合反映模型的性能（排序模型）

（3）均方根误差用于衡量回归模型的好坏，但出现样本的离群点非常大时，从指标的角度考虑，应该选择平均绝对百分比误差指标评估

（4）二值分类器的评估指标：精确率，召回率，F1 score,PR曲线，还有一种roc曲线。其中roc曲线能降低不同测试卷集带来的干扰，特别适用于正负样本数量不平衡的情况。若是希望看到模型在特定数据集的表现则PR曲线更加合适。

（5）欧式距离体现数值的绝对差异，余弦距离体现方向的相对差异，实际的使用看哪个的差异较为明显 kl距离，评估两个分布之间的差异

（6）A/B测试用于验证模型的最终效果，分实验组和测试组

参考：百面

heda3

目录

相关文章

众所周知

|

6月前

|

机器学习/深度学习测试技术

大模型开发：描述交叉验证以及为什么在模型评估中使用它。

【4月更文挑战第24天】交叉验证是评估机器学习模型性能的方法，通过将数据集分成训练集和多个子集（折叠）进行多次训练验证。它能减少过拟合风险，提供更可靠的性能估计，用于参数调优，并减少小数据集或噪声带来的随机性影响。通过汇总多轮验证结果，得到模型的整体性能估计。

众所周知

63 7 7

vohelon

|

6月前

您可以使用验证集来评估微调后的模型效果

【1月更文挑战第16天】【1月更文挑战第78篇】您可以使用验证集来评估微调后的模型效果

vohelon

178 6 6

kaixin321-44007

|

8天前

|

自然语言处理前端开发

如何评估一个基于MLM的模型在特定任务上的性能？

如何评估一个基于MLM的模型在特定任务上的性能？

kaixin321-44007

17 2 2

龙腾九州

|

3月前

评估与预测

【8月更文挑战第21天】评估与预测。

龙腾九州

32 1 1

算精通

|

6月前

|

机器学习/深度学习监控数据可视化

“【5月更文挑战第27天】”

算精通

52 2 2

vohelon

|

6月前

|

机器学习/深度学习算法数据挖掘

如何评估模型性能以进行模型选择？

【5月更文挑战第4天】如何评估模型性能以进行模型选择？

vohelon

129 5 7

龙大吉

|

6月前

|

机器学习/深度学习算法

如何评估使用PyBrain训练的模型性能

使用PyBrain训练模型的性能评估包括：混淆矩阵（TP, TN, FP, FN, 准确率）、性能度量（准确率, 错误率）、泛化能力、数据集划分（训练集与测试集误差）以及其他指标如计算速度和鲁棒性。评估过程需综合考虑多种方法，并依据业务需求和模型类型选择合适的方式。

龙大吉

38 3 3

众所周知

|

6月前

|

机器学习/深度学习算法

如何评估使用PyBrain训练的模型性能？

PyBrain模型性能评估包括混淆矩阵（TP, TN, FP, FN）、准确率与错误率、泛化能力、数据集划分与测试以及计算速度和鲁棒性等指标。评估过程需结合业务需求和模型类型选取合适方法。

众所周知

35 1 1

Hacoj

|

6月前

|

机器学习/深度学习大数据

如何通过评估方法评估机器学习模型的性能

如何通过评估方法评估机器学习模型的性能

Hacoj

118 0 0

aliyun9861394983-11302

|

机器学习/深度学习定位技术 Python

深入理解线性回归模型的评估与优化方法

深入理解线性回归模型的评估与优化方法

aliyun9861394983-11302

303 0 0

ModelScope模型即服务

热门文章

最新文章

阿里云通义千问向全社会开放！

multi-agent：多角色Agent协同合作，高效完成复杂任务

Llama 3开源，魔搭社区手把手带你推理，部署，微调和评估

智胜未来：国内大模型+Agent应用案例精选，以及主流Agent框架开源项目推荐

自然语言处理Transformer模型最详细讲解（图解版）

vanna+qwen实现私有模型的SQL转换

通义千问72B、1.8B、Audio模型开源！魔搭社区最佳实践来啦！

【RAG实践】Rerank，让RAG更近一步

ModelScope一键部署模型：新手村实操FAQ篇

【机器学习技巧】回归模型的几个常用评估指标（R2、Adjusted-R2、MSE、RMSE、MAE、MAPE）及其在sklearn中的调用方式

今日 AI 开源｜共 4 项｜DeepSeek 推出新一代 AI 推理模型，实力比肩 OpenAI o1-preview！

最佳实践！使用 GraphRAG + GLM-4 对《红楼梦》全文构建中文增强检索

WebChat：开源的网页内容增强问答 AI 助手，基于 Chrome 扩展的最佳实践开发，支持自定义 API 和本地大模型

Documind：开源 AI 文档处理工具，将 PDF 转换为图像提取结构化数据

今日 AI 开源｜共 10 项｜复合 AI 模型，融合多个开源 AI 模型组合解决复杂推理问题

Memoripy：支持 AI 应用上下文感知的记忆管理 Python 库

Perplexica：开源 AI 搜索引擎，Perplexity AI 的开源替代品，支持多种搜索模式、实时信息更新

OmniSearch：阿里巴巴通义推出的多模态检索增强生成框架

基于qwen模型实现大模型应用探索-党务知识小助手

Java“TimeoutException”解决

相关课程

更多

机器学习基础与回归算法

机器学习集成学习与模型融合

场景实践 - 基于阿里云PAI机器学习平台使用时间序列分解模型预测商品销量

【算法实战】7. 集成方法-随机森林

【开眼界】大模型时代的个人应对策略

【算法实战】8. 集成方法-Adaboost

相关电子书

更多

纯干货|机器学习中梯度下降法的分类及对比分析

纯干货 | 机器学习中梯度下降法的分类及对比分析

安全值-量化安全风险

相关实验场景

更多

如何快速训练大模型

使用PAI+LLaMA Factory微调Qwen2-VL模型，搭建文旅领域知识问答机器人

使用PAI-快速开始，低代码实现大语言模型微调和部署

推荐系统入门之使用ALS算法实现打分预测

基于函数计算实现AI推理

下一篇

阿里云OSS设置跨域访问