期末复习【机器学习】1

简介: 期末复习【机器学习】1

前言

以下内容源自课堂PPT及博客

仅供学习交流使用

请您阅读文章声明,默认同意该声明

导航

配置环境miniconda+pycharm【机器学习】

实验1 贝叶斯分类【机器学习】

实验2 神经网络实现分类【机器学习】

实验3 手写字体识别【机器学习】

实验4 卷积神经网络【机器学习】

推荐

【一起啃西瓜书】机器学习-期末复习(不挂科)

机器学习【期末复习总结】——知识点和算法例题(详细整理)

机器学习期末考试

期末复习

1 ML:概述

机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能,从而在计算机上从数据(经验)中产生“模型”,用于对新的情况给出判断(利用此模型预测未来的一种方法)。

一般流程



基本术语



数据集:一组样本的集合,这组记录的集合。


样本/示例:数据的特定实例,每条记录是关于一个事件或对象(这里是一个西瓜)的描述


特征/属性:反映事件或对象在某方面的表现或性质的事项


属性空间/样本空间/输入空间:属性张成的空间


维数:每个示例由d 个属性描述,d称为样本的"维数"。


训练数据:.训练过程中使用的数据称为"训练数据" (从数据中学得模型的过程称为"学习" 或"训练")


训练样本:每个样本称为一个训练样本"


训练集:训练样本组成的集合称为"训练集"


标记:关于示例结果的信息,例如"好瓜"。


样例:拥有了标记信息的示例


真相(ground-truth):数据的潜在的某种规律


假设(hypothesis):学得模型对应了关于数据的某种潜在规律


测试:学得模型后,使用其进行预测得过程


测试集:测试样本组成得集合


泛化能力:


学得模型适用于新样本的能力。训练好的模型在前所未见的数据上的性能好坏。

训练数据和真实数据间的差异,训练模型的目地是要模型在完全陌生的数据上进行测试的;

通常假设样本空间中的样本服从一个未知分布D , 样本从这个分布中独立获得,即“独立同分布”(i.i.d)。一般而言训练样本越多越有可能通过学习获得强泛化能力的模型

模型

模型定义了特征与标签之间的关系。例如,垃圾邮件检测模型可能会将某些特征与“垃圾邮件”紧密联系起来。


两个阶段:


训练是指创建或学习模型。也就是说,向模型展示有标签样本,让模型逐渐学习特征与标签之间的关系。

推断是指将训练后的模型应用于无标签样本。也就是说,使用经过训练的模型做出有用的预测 (y’)。例如,在推断期间,您可以针对新的无标签样本预测是否好瓜。

假设空间

假设空间由3部分组成:
① 属性(特征)色泽,根蒂,敲声的取值分别有2,3,3种选择;
② 色泽,根蒂,敲声也许无论取什么值都合适,我们分别用通配符“ * ”表示
例如:“ 好瓜<—>(色泽= *)^(根蒂=蜷缩)^(敲声=浊响)”,
即“好瓜是根蒂蜷缩、敲声浊响的瓜,什么色泽都行”
③ 还有一种极端情况,有可能“ 好瓜 ”这个概念根本就不成立,
世界上压根就没有“好瓜”这种东西,我们用Ø表示这个假设。
所以,表中,色泽有2中取值,根蒂有3中取值,敲声有3中取值,
再加上各自的“通配项”,以及极端情况“好瓜概念根本不成立”的Ø,
故假设空间规模大小为:(2+1) * (3+1) * (3+1)+ 1 = 49。


学习过程看作一个在所有假设(hypothesis) 组成的空间中进行搜索的过程,搜索目标是找到与训练集"匹配"的假设,获得与训练集一致(即对所有训练样本能够进行正确判断)的假设,这就是我们学得的结果。

算法分类

算法分类


输入数据有无标记信息

监督学习:分类、回归

样本带有标签值,称为监督信号,有学习过程,根据训练样本学习,得到模型,然后用于预测。按照标签值的类型可以进一步分为两类

分类问题 - 标签值为整数编号,离散值

回归问题 - 标签值为实数

无监督学习:聚类,降维

样本没有标签值,没有训练过程,机器学习算法直接对样本进行处理,得到结果

半监督学习:两者结合

有些训练样本有标签值,有些没有标签值,用这些样本进行训练得到模型,然后用于预测,介于有监督学习与无监督学习之间


强化学习:

计算机从一开始完全随机的进行操作,通过不断地尝试,从错误中学习,找到规律,学会了达到目的的方法。这就是一个完整的强化学习过程。
让计算机在不断的尝试中更新自己的行为,从而一步步学习如何操纵自己的行为得到高分。给予算法一个不断试错,并具有奖励机制的场景,最终是算法找到最佳路径或者策略

它主要包含四个元素,Agent、环境状态、行动、奖励,强化学习的目标就是获得最多的累计奖励。

生成模型与判别模型

有监督学习算法可以进一步分为生成模型与判别模型
生成模型对样本特征向量与标签值的联合概率分布 p(x,y) 进行建模,或者对条件概率 p(x|y) 建模

生成模型需要对样本的特征向量服从某种概率分布建模


判别模型直接对后验概率 p(y|x) 建模

或者直接预测标签值 y=f(x) ,不使用概率模型

判别模型不对样本特征向量的概率分布进行建模


机器学习通用步骤

1.选择数据:训练数据、测试数据、验证数据(训练效果、泛化效果、验证效果)

2.数据建模: 使用训练数据来构建使用相关特征的模型

3.训练模型:特征数据接入算法模型,来确定算法模型的类型,参数等。

4.测试模型:使用测试数据检查被训练模型的表现(精确率、召回率)

5.验证模型: 使用完全训练好的模型在新数据上做预测

6..调优模型:使用更多数据、不同的特征或调整过的参数来提升算法的性能表现



2 线性模型

最小二乘法


例题


相关文章
|
机器学习/深度学习 算法
期末复习【机器学习】2
期末复习【机器学习】2
73 0
|
机器学习/深度学习
期末复习【机器学习】3
期末复习【机器学习】3
108 1
|
机器学习/深度学习 算法 数据挖掘
期末复习【机器学习】4
期末复习【机器学习】4
116 0
|
6月前
|
机器学习/深度学习 存储 搜索推荐
利用机器学习算法改善电商推荐系统的效率
电商行业日益竞争激烈,提升用户体验成为关键。本文将探讨如何利用机器学习算法优化电商推荐系统,通过分析用户行为数据和商品信息,实现个性化推荐,从而提高推荐效率和准确性。
239 14
|
6月前
|
机器学习/深度学习 算法 数据可视化
实现机器学习算法时,特征选择是非常重要的一步,你有哪些推荐的方法?
实现机器学习算法时,特征选择是非常重要的一步,你有哪些推荐的方法?
114 1
|
6月前
|
机器学习/深度学习 算法 搜索推荐
Machine Learning机器学习之决策树算法 Decision Tree(附Python代码)
Machine Learning机器学习之决策树算法 Decision Tree(附Python代码)
|
6月前
|
机器学习/深度学习 数据采集 算法
解码癌症预测的密码:可解释性机器学习算法SHAP揭示XGBoost模型的预测机制
解码癌症预测的密码:可解释性机器学习算法SHAP揭示XGBoost模型的预测机制
306 0
|
6月前
|
机器学习/深度学习 数据采集 监控
机器学习-特征选择:如何使用递归特征消除算法自动筛选出最优特征?
机器学习-特征选择:如何使用递归特征消除算法自动筛选出最优特征?
912 0
|
6月前
|
机器学习/深度学习 人工智能 算法
探索机器学习中的支持向量机(SVM)算法
【2月更文挑战第20天】 在数据科学与人工智能的领域中,支持向量机(SVM)是一种强大的监督学习算法,它基于统计学习理论中的VC维理论和结构风险最小化原理。本文将深入探讨SVM的核心概念、工作原理以及实际应用案例。我们将透过算法的数学原理,揭示如何利用SVM进行有效的数据分类与回归分析,并讨论其在处理非线性问题时的优势。通过本文,读者将对SVM有更深层次的理解,并能够在实践中应用这一算法解决复杂的数据问题。
82 0
|
6月前
|
机器学习/深度学习 分布式计算 算法
大模型开发:你如何确定使用哪种机器学习算法?
在大型机器学习模型开发中,选择算法是关键。首先,明确问题类型(如回归、分类、聚类等)。其次,考虑数据规模、特征数量和类型、分布和结构,以判断适合的算法。再者,评估性能要求(准确性、速度、可解释性)和资源限制(计算资源、内存)。同时,利用领域知识和正则化来选择模型。最后,通过实验验证和模型比较进行优化。此过程涉及迭代和业务需求的技术权衡。
104 2