机器学习—机器学习

简介: 1.机器学习简介

机器学习: 不直接针对问题进行编程的情况下,赋予计算机学习能力的一个研究领域


针对某类任务T和性能度量P,如果一个计算机程序T上以P衡量的性能随着经验E而自我完善,那么我们称这个计算机程序在从经验E学习


2.常见算法


2.1 有监督算法


样本数据中有结果标记


分类


按原理分


  1. 基于统计 贝叶斯分类
  2. 基于规则 决策树算法
  3. 基于神经网络 神经网络算法
  4. 基于距离 KNN(K最近邻)


常用评估指标


  1. 精确率 预测结果与实际结果的比例
  2. 召回率 预测结果中某类结果的正确覆盖率
  3. F1-Score 统计量,综合评估分类模型 取值0-1之间


回归算法


2.1.1 KNN算法


k-Nearest Neighbour 分类算法中最简单的算法之一,如果离某一个样本最近的k个样本中的大多数数据都属于某个类别,那么就认为该样本也属于该类别,并具有该类上样本的特性,KNN不仅能预测分类,还可以做回归分析(预测具体的值)

image.png

2.1.2 决策树算法

image.png

image.png

image.png

image.png

image.png

image.png

2.2. 无监督算法


样本数据中无结果标记


2.2.1 聚类


  1. 层次聚类
  2. 密度聚类
  3. 划分聚类
  4. image.png

image.png

2.3 半监督算法


样本数据中部分有结果标记

image.png

3.机器学习算法详解


3.1 机器学习基础知识


3.1.1机器学习的基本概念


  1. 输入空间:将输入的所有可能取值的集合称作输入空间
  2. 输出空间:将输出的所有可能取值的集合称作输出空间
  3. 特征:即属性
  4. 特征向量:多个特征组成的向量成为特征向量
  5. 特征空间:将特征向量存在的空间称作特征空间
  6. 假设空间:有输入空间到输出空间的映射的集合


3.1.2机器学习的实质


3.1.3 机器学习方法的三要素


方法=模型+策略+算法


  1. 模型:输入空间到输出空间的映射关系,选择的合适的假设空间
  2. image.png

策略:从众多的假设空间中算则到最优的模型的学习标准或规则

image.png

  1. 损失函数: 用于衡量预测结果和真实结果之间的差距,其值越小,代表预结果和真实结果越一直 通常是一个非负实值函数, 通过各种方式缩小损失函数的过程被称作优化,损失函数记作 L(Y,f(x))
  1. 0-1损失函数 预测值和实际值相等则没有损失,否则为完全损失
  2. 绝对值损失函数: 预测结果与真实结果差的绝对值
  3. 平方损失函数: 预测结果与真实结果差的平方
  4. 对数损失函数: 对数函数具有单调性,在求最优化问题时,结果与原始目标一致,可将乘法转换为加法
  5. 指数损失函数:单调性,非负性的优良性质.使得越接近正确结果误差越小
  6. 折叶损失函数
  1. 经验风险 & 风险函数
  2. image.png
  3. 结构风险
  4. image.png
  5. image.png

3.2 模型评估与选择


3.2.1 模型选择的原则


3.2.1.1 基本概念


  1. 误差: 模型的预测输出值与其真实值之间的差异
  2. 训练: 通过已知的样本数据进行学习,从而得到模型的过程
  3. 训练误差: 模型作用与训练集时的误差
  4. 泛化: 从特殊到一般,对机器学习来说指的是从模型作用于新的样本数据
  5. 泛化误差: 模型作用于新的样本数据时的误差
  6. 模型容量: 拟合各种模型的能力
  7. 过拟合: 某个模型在样本上表现好,在新样本上表现差
  8. 欠拟合: 模型对训练集的表现不好
  9. 模型选择: 选择泛化误差最小的模型


3.2.2 模型的性能指标


3.2.3 模型评估的方法


  1. 留出法: 使用80%的已知数据集作为训练集训练模型,使用剩下的20%作为测试集测试训练好的模型,使用测试集得出的测试误差作为泛化误差的近似值,取测试误差较小的模型
  1. 测试集和训练集尽量互斥
  2. 测试集和训练集独立同分布
  1. 交叉验证法: 将数据集分为k个互斥的数据子集.子集数据采用分层采样,每次从中选取一个数据集作为测试集,其余用作训练集,进行k次训练和测试,得到平均值,该验证方法称为k折交叉验证   使用不同的划分,重复p次,称为p次k折交叉验证


3.2.4 模型性能的比较


3.2.4.1 回归算法的性能度量

image.png

3.2.4.2 分类算法的性能度量

若有收获,就点个赞吧

目录
相关文章
|
6月前
|
机器学习/深度学习 算法
用机器学习图像匹配
用机器学习图像匹配
|
机器学习/深度学习 人工智能 算法
机器学习连载(30)
机器学习连载(30)
43 0
机器学习连载(30)
|
机器学习/深度学习 人工智能 算法
机器学习连载(35)
机器学习连载(35)
34 0
机器学习连载(35)
|
机器学习/深度学习
机器学习连载(4)
机器学习连载(4)
41 0
机器学习连载(4)
|
机器学习/深度学习
机器学习连载(6)
机器学习连载(6)
31 0
机器学习连载(6)
|
机器学习/深度学习
机器学习连载(1)
机器学习连载(1)
33 0
机器学习连载(1)
|
机器学习/深度学习
机器学习连载(11)
机器学习连载(11)
36 0
机器学习连载(11)
|
机器学习/深度学习
机器学习中的常识性问题
机器学习中的常识性问题
机器学习中的常识性问题
|
机器学习/深度学习 人工智能 分布式计算
机器学习之一:什么是机器学习?
机器学习之一:什么是机器学习?
|
机器学习/深度学习 算法 搜索推荐
【机器学习】文章4
首先对于 CONVEX BICLUSTERING做一个描述,CONVEX是凸面的,所以我们很容易就知道CONVEX BICLUSTERING是一个凸双聚类。 在双聚群问题中,我们寻求同时对观察结果和特征进行分组,虽然聚簇在从文本挖掘到协同过滤的广泛领域都有应用,但在高维基因组数据中识别结构的问题激发了这项工作。
115 0
【机器学习】文章4