机器学习(六)监督学习简介

简介: 用一组带有标签的数据,学习从输入到输出的映射,然后将这种映射关系应用到未知数据上,达到分类或回归的目的。分类:当输出是离散的,学习任务为分类任务。回归:当输出是连续的,学习任务为回归任务。二.分类学习

一.监督学习

利用一组带有标签的数据,学习从输入到输出的映射,然后将这种映射关系应用到未知数据上,达到分类或回归的目的。

分类:当输出是离散的,学习任务为分类任务。

回归:当输出是连续的,学习任务为回归任务。


二.分类学习

输入:一组有标签的训练数据(也称观察和评估),标签表明了这些数据(观察)的所署类别。

输出:分类模型根据这些训练数据,训练自己的模型参数,学习出一个适合这组数据的分类器,当有新数据(非训练数据)需要进行类别判断,就可以将这组新数据作为输入送给学好的分类器进行判断。


(1)分类学习--评价

• 训练集(training set):顾名思义用来训练模型的已标注数据,用来建立模型,发现规律。

• 测试集(testing set):也是已标注数据,通常做法是将标注隐藏,输送给训练好的模型,通过结果与真实标注进行对比,评估模型的学习能力。

训练集/测试集的划分方法:根据已有标注数据,随机选出一部分数据(70%)数据作为训练数据,余下的作为测试数据,此外还有交叉验证法,自助法用来评估分类模型。


(2)分类学习的评价标准

精确率:精确率是针对我们预测结果而言的,(以二分类为例)它表示的是预测为正的样本中有多少是真正的正样本。那么预测为正就有两种可能了,一种就是把正类预测为正类(TP),另一种就是把负类预测为正类(FP),

也就是

image.png

召回率:是针对我们原来的样本而言的,它表示的是样本中的正例有多少被预测正确了。那也有两种可能,一种是把原来的正类预测成正类(TP),另一种就是把原来的正类预测为负类(FN),也就是


image.png


假设我们手上有60个正样本,40个负样本,我们要找出所有的正样本,分类算法查找出50个,其中只有40个是真正的正样本,TP: 将正类预测为正类数 40;FN: 将正类预测为负类数 20;FP: 将负类预测为正类数 10;TN: 将负类预测为负类数 30

准确率(accuracy)=预测对的/所有 = (TP+TN)/(TP+FN+FP+TN) = 70%

精确率(precision)=

召回率(recall)=


(3)Sklearn提供的分类函数


• k近邻(knn)

• 朴素贝叶斯(naivebayes),

• 支持向量机(svm),

• 决策树 (decision tree)

• 神经网络模型(Neural networks)等

• 这其中有线性分类器,也有非线性分类器。


(4)分类算法的应用

金融:贷款是否批准进行评估

医疗诊断:判断一个肿瘤是恶性还是良性

欺诈检测:判断一笔银行的交易是否涉嫌欺诈

网页分类:判断网页的所属类别,财经或者是娱乐?


三.回归分析

回归:统计学分析数据的方法,目的在于了解两个或多个变数间是否相关、研究其相关方向与强度,并建立数学模型以便观察特定变数来预测研究者感兴趣的变数。回归分析可以帮助人们了解在自变量变化时因变量的变化量。一般来说,通过回归分析我们可以由给出的自变量估计因变量的条件期望。



(1)Sklearn提供的回归函数

相关函数主要被封装在两个子模块中,分别是sklearn.linear_model和sklearn.preprocessing。

sklearn.linear_modlel封装的是一些线性函数,线性回归函数包括有:

• 普通线性回归函数( LinearRegression )

• 岭回归(Ridge)

• Lasso(Lasso)

非线性回归函数,如多项式回归(PolynomialFeatures)则通过sklearn.preprocessing子模块进行调用



(2)回归应用领域

回归方法适合对一些带有时序信息的数据进行预测或者趋势拟合,常用在金融及其他涉及时间序列分析的领域:

• 股票趋势预测

• 交通流量预测


相关文章
|
22天前
|
机器学习/深度学习 自然语言处理 算法
机器学习核心:监督学习与无监督学习
本文深入解析了机器学习中的监督学习与无监督学习,涵盖理论基础、应用场景及典型算法实现,如线性回归、决策树、K均值聚类和主成分分析,并通过代码示例加深理解。适合初学者和进阶者阅读。
73 5
|
7月前
|
机器学习/深度学习 算法 TensorFlow
机器学习算法简介:从线性回归到深度学习
【5月更文挑战第30天】本文概述了6种基本机器学习算法:线性回归、逻辑回归、决策树、支持向量机、随机森林和深度学习。通过Python示例代码展示了如何使用Scikit-learn、statsmodels、TensorFlow库进行实现。这些算法在不同场景下各有优势,如线性回归处理连续值,逻辑回归用于二分类,决策树适用于规则提取,支持向量机最大化类别间隔,随机森林集成多个决策树提升性能,而深度学习利用神经网络解决复杂模式识别问题。理解并选择合适算法对提升模型效果至关重要。
251 4
|
2月前
|
机器学习/深度学习 传感器 算法
机器学习入门(一):机器学习分类 | 监督学习 强化学习概念
机器学习入门(一):机器学习分类 | 监督学习 强化学习概念
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
【机器学习】机器学习、深度学习、强化学习和迁移学习简介、相互对比、区别与联系。
机器学习、深度学习、强化学习和迁移学习都是人工智能领域的子领域,它们之间有一定的联系和区别。下面分别对这四个概念进行解析,并给出相互对比、区别与联系以及应用场景案例分析。
130 1
|
4月前
|
机器学习/深度学习 人工智能 算法
机器学习简介
机器学习简介
44 3
|
6月前
|
机器学习/深度学习 PyTorch 算法框架/工具
机器学习框架简介
【6月更文挑战第26天】机器学习框架简介。
50 5
|
7月前
|
机器学习/深度学习 人工智能 运维
|
6月前
|
机器学习/深度学习 存储 算法
机器学习之聚类——双聚类简介及简单案例
机器学习之聚类——双聚类简介及简单案例
76 0
|
6月前
|
机器学习/深度学习 数据挖掘
机器学习之聚类——谱聚类简介及其对特殊形状区域数据的聚类
机器学习之聚类——谱聚类简介及其对特殊形状区域数据的聚类
48 0
|
6月前
|
机器学习/深度学习 算法 数据挖掘
机器学习中的监督学习与非监督学习
在机器学习领域,算法主要分为两大类:监督学习(Supervised Learning)和非监督学习(Unsupervised Learning)。这两种方法在数据处理和问题解决方面各有特点和应用场景。本文将详细介绍监督学习与非监督学习的基本概念、区别以及它们的常见应用。
241 0

热门文章

最新文章