文档备案控制台

开发者社区人工智能文章正文

机器学习——实践

2023-11-22 987

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 机器学习——实践

一、数据集划分

训练集（Training Set）：帮助我们训练模型，简单的说就是通过训练集的数据让我们确定拟合曲线的参数。

验证集（Validation Set）：也叫做开发集（ Dev Set ），用来做模型选择（model selection），即做模型的最终优化及确定的，用来辅助我们的模型的构建，即训练超参数，可选；

测试集（Test Set）：为了测试已经训练好的模型的精确度。

三者划分：训练集、验证集、测试集
机器学习：60%，20%，20%；70%，10%，20%
深度学习：98%，1%，1% （假设百万条数据）

1、交叉验证

1. 使用训练集训练出k个模型

2. 用k个模型分别对交叉验证集计算得出交叉验证误差（代价函数的值）

3. 选取代价函数值最小的模型

4. 用步骤3中选出的模型对测试集计算得出推广误差（代价函数的值）

2、不平衡数据的处理

数据不平衡是指数据集中各类样本数量不均衡的情况.

常用不平衡处理方法有采样和代价敏感学习

采样有欠采样、过采样和综合采样的方法.

代价敏感学习

代价敏感学习是指为不同类别的样本提供不同的权重，从而让机器学习模型进行学习的一种方法

比如风控或者入侵检测，这两类任务都具有严重的数据不平衡问题，可以在算法学习的时候，为少类样本设置更高的学习权重，从而让算法更加专注于少类样本的分类情况，提高对少类样本分类的查全率，但是也会将很多多类样本分类为少类样本，降低少类样本分类的查准率。

二、评价指标

1. 正确肯定（True Positive,TP）：预测为真，实际为真

2. 正确否定（True Negative,TN）：预测为假，实际为假

3. 错误肯定（False Positive,FP）：预测为真，实际为假

4. 错误否定（False Negative,FN）：预测为假，实际为真

混淆矩阵（confusion_matrix）

有100张照片，其中，猫的照片有60张，狗的照片是40张。

输入这100张照片进行二分类识别，找出这100张照片中的所有的猫。

正例（Positives）：猫
负例（Negatives）：狗

识别结果的混淆矩阵

1、正确率（Accuracy）=(TP+ TN)/S

TP+ TN =70，S= 100，则正确率为： Accuracy =70/100=0.7

2、精度（Precision）=TP/(TP+ FP)

TP=40，TP+ FP=50。 Precision =40/50=0.8

3、召回率（Recall）=TP/(TP+ FN)

TP=40，TP+FN =60。则召回率为： Recall =40/60=0.67

ROC和PR曲线

三、正则化、偏差和方差

为什么要标准化/归一化？

提升模型精度：不同维度之间的特征在数值上有一定比较性，可以大大提高分类器的准确性。

加速模型收敛：最优解的寻优过程明显会变得平缓，更容易正确的收敛到最优解。

之前介绍过，过拟合可以通过正则化来处理，这里我们介绍另外几种方法

过拟合的处理——Dropout

Dropout的功能类似于L2正则化，与L2正则化不同的是，被应用的方式不同，dropout也会有所不同，甚至更适用于不同的输入范围

keep-prob=1(没有dropout) keep-prob=0.5(常用取值，保留一半神经元)

在训练阶段使用，在测试阶段不使用！

过拟合的处理——Early stopping

Early stopping代表提早停止训练神经网络

Early stopping的优点是，无需尝试L2正则化超参数λ的很多值。

过拟合的处理——数据增强

数据增强：随意翻转和裁剪、扭曲变形图片

偏差和方差

偏差Bias：描述的是预测值（估计值）的期望与真实值之间的差距。偏差越大，越偏离真实数据，如上图第二行所示。

方差Variance：描述的是预测值的变化范围，离散程度，也就是离其期望值的距离。方差越大，数据的分布越分散，如上图右列所示。

方差、偏差和模型复杂度

下图是模型复杂度与误差的关系，一般来说，随着模型复杂度的增加，方差会逐渐增大，偏差会逐渐减小，在虚线处，差不多是模型复杂度的最恰当的选择，其“偏差”和“方差”也都适度，才能“适度拟合”。

1. 获得更多的训练实例——解决高方差

2. 尝试减少特征的数量——解决高方差

3. 尝试获得更多的特征——解决高偏差

4. 尝试增加多项式特征——解决高偏差

5. 尝试减少正则化程度λ——解决高偏差

6. 尝试增加正则化程度λ——解决高方差

文章标签：

机器学习/深度学习

算法

安全

关键词：

人工智能平台 PAI实践

七七喝椰奶

目录

相关文章

阿里云大数据Al技术

|

11月前

|

机器学习/深度学习人工智能 JSON

【解决方案】DistilQwen2.5-R1蒸馏小模型在PAI-ModelGallery的训练、评测、压缩及部署实践

阿里云的人工智能平台 PAI，作为一站式的机器学习和深度学习平台，对DistilQwen2.5-R1模型系列提供了全面的技术支持。无论是开发者还是企业客户，都可以通过 PAI-ModelGallery 轻松实现 Qwen2.5 系列模型的训练、评测、压缩和快速部署。本文详细介绍在 PAI 平台使用 DistilQwen2.5-R1 蒸馏模型的全链路最佳实践。

阿里云大数据Al技术

570 63 63

阿里云大数据Al技术

|

10月前

|

人工智能 JSON 算法

【解决方案】DistilQwen2.5-DS3-0324蒸馏小模型在PAI-ModelGallery的训练、评测、压缩及部署实践

DistilQwen 系列是阿里云人工智能平台 PAI 推出的蒸馏语言模型系列，包括 DistilQwen2、DistilQwen2.5、DistilQwen2.5-R1 等。本文详细介绍DistilQwen2.5-DS3-0324蒸馏小模型在PAI-ModelGallery的训练、评测、压缩及部署实践。

阿里云大数据Al技术

465 7 8

历年考试不作弊

|

机器学习/深度学习数据采集人工智能

AI与机器学习：从理论到实践

【10月更文挑战第2天】本文将深入探讨AI和机器学习的基本概念，以及它们如何从理论转化为实际的应用。我们将通过Python代码示例，展示如何使用机器学习库scikit-learn进行数据预处理、模型训练和预测。无论你是AI领域的初学者，还是有一定基础的开发者，这篇文章都将为你提供有价值的信息和知识。

历年考试不作弊

281 0 0

颜淡慕潇

|

数据采集人工智能 API

生物医药蛋白分子数据采集：支撑大模型训练的技术实践分享

作为生物信息学领域的数据工程师，近期在为蛋白质相互作用预测AI大模型构建训练集时，我面临着从PDB、UniProt等学术数据库获取高质量三维结构、序列及功能注释数据的核心挑战。通过综合运用反爬对抗技术，成功突破了数据库的速率限制、验证码验证等反爬机制，将数据采集效率提升4倍，为蛋白质-配体结合预测模型训练提供了包含10万+条有效数据的基础数据集，提高了该模型预测的准确性。

颜淡慕潇

505 1 1

阿里云大数据Al技术

|

机器学习/深度学习人工智能边缘计算

DistilQwen2.5蒸馏小模型在PAI-ModelGallery的训练、评测、压缩及部署实践

DistilQwen2.5 是阿里云人工智能平台 PAI 推出的全新蒸馏大语言模型系列。通过黑盒化和白盒化蒸馏结合的自研蒸馏链路，DistilQwen2.5各个尺寸的模型在多个基准测试数据集上比原始 Qwen2.5 模型有明显效果提升。这一系列模型在移动设备、边缘计算等资源受限的环境中具有更高的性能，在较小参数规模下，显著降低了所需的计算资源和推理时长。阿里云的人工智能平台 PAI，作为一站式的机器学习和深度学习平台，对 DistilQwen2.5 模型系列提供了全面的技术支持。本文详细介绍在 PAI 平台使用 DistilQwen2.5 蒸馏小模型的全链路最佳实践。

阿里云大数据Al技术

586 3 3

阿里云大数据Al技术

|

人工智能 JSON 算法

Qwen2.5-Coder 系列模型在 PAI-QuickStart 的训练、评测、压缩及部署实践

阿里云的人工智能平台 PAI，作为一站式、 AI Native 的大模型与 AIGC 工程平台，为开发者和企业客户提供了 Qwen2.5-Coder 系列模型的全链路最佳实践。本文以Qwen2.5-Coder-32B为例，详细介绍在 PAI-QuickStart 完成 Qwen2.5-Coder 的训练、评测和快速部署。

阿里云大数据Al技术

2117 30 30

Qwen2.5-Coder 系列模型在 PAI-QuickStart 的训练、评测、压缩及部署实践

Echo_Wish

|

机器学习/深度学习数据采集分布式计算

大数据分析中的机器学习基础：从原理到实践

大数据分析中的机器学习基础：从原理到实践

Echo_Wish

661 3 3

请看我回答~

|

机器学习/深度学习人工智能算法

人工智能浪潮下的编程实践：构建你的第一个机器学习模型

在人工智能的巨浪中，每个人都有机会成为弄潮儿。本文将带你一探究竟，从零基础开始，用最易懂的语言和步骤，教你如何构建属于自己的第一个机器学习模型。不需要复杂的数学公式，也不必担心编程难题，只需跟随我们的步伐，一起探索这个充满魔力的AI世界。

请看我回答~

321 12 12

Deephub

|

机器学习/深度学习数据可视化数据挖掘

机器学习中空间和时间自相关的分析：从理论基础到实践应用

空间和时间自相关是数据分析中的重要概念，揭示了现象在空间和时间维度上的相互依赖关系。本文探讨了这些概念的理论基础，并通过野火风险预测的实际案例，展示了如何利用随机森林模型捕捉时空依赖性，提高预测准确性。

Deephub

978 0 1

机器学习中空间和时间自相关的分析：从理论基础到实践应用

热门文章

最新文章

机器学习与数据科学决策树指南

基于redis的分布式ID生成器

一文读完GitHub30+篇顶级机器学习论文（附摘要和论文下载地址）

斯坦福机器学习公开课学习笔记(2)—监督学习梯度下降

实战揭秘：如何借助TensorFlow.js的强大力量，轻松将高效能的机器学习模型无缝集成到Web浏览器中，从而打造智能化的前端应用并优化用户体验

ML：机器学习工程化之团队十大角色背景、职责、产出物划分之详细攻略

R语言是一种强大的编程语言，广泛应用于统计分析、数据可视化、机器学习等领域

从阿里云峰会看一站式数据AI平台的演进

PAI平台搭建企业级个性化推荐系统

机器学习的一般范式

【机器学习算法篇】K-近邻算法

量子机器学习入门：三种数据编码方法对比与应用

MINUN: 微控制器上的精确机器学习推理——论文阅读

TensorFlow Lite Micro：嵌入式TinyML系统上的机器学习推理框架——论文深度解析

模型微调不再被代码难住！PAI和Qwen3-Coder加速AI开发新体验

Java 大视界 -- Java 大数据机器学习模型在自然语言生成中的可控性研究与应用（229）

Java 大视界 -- Java 大数据机器学习模型在生物信息学基因功能预测中的优化与应用（223）

Java 大视界 -- Java 大数据机器学习模型在电商用户流失预测与留存策略制定中的应用（217）

【新模型速递】PAI-Model Gallery云上一键部署gpt-oss系列模型

Java 大视界 --Java 大数据机器学习模型在金融风险压力测试中的应用与验证（211）

相关课程

更多

PAI平台学习路线：机器学习入门到应用

场景实践 - 机器学习PAI实现精细化营销

场景实践 - 基于阿里云PAI机器学习平台使用时间序列分解模型预测商品销量

场景实践 - 基于机器学习进行收入预测分析

机器学习概览及常见算法

机器学习入门-概念原理及常用算法

相关电子书

更多

阿里巴巴机器学习平台AI

微博机器学习平台架构和实践

机器学习及人机交互实战

相关实验场景

更多

在PAI ArtLab一键设计AIGC新春红包

使用PAI+LLaMA Factory微调Qwen2-VL模型，搭建文旅领域知识问答机器人

下一篇

狂揽7.5k星！这款开源API网关彻底解放开发者：一键聚合GPT-4、Suno、Midjourney，还能在线充值！