什么是机器学习?
通俗的讲,如果一个程序,在执行某个任务的时候,能够利用现有的经验不断的去改善完成既定任务的性能,我们就称这个程序是具有学习能力的。
机器学习三要素:经验、任务和性能
一、经验
我们习惯上把数据看做经验:在客观世界中任何一个事物都可以用数据来表示。在表述客观事物的时候,一般用特征来衡量。在机器学习中一个事物一般会用若干个特征来表示,这些特征一般会写成一个向量的形式,称为特征向量。
经验是机器学习的基础,也就是数据。
二、任务
利用现有的数据,根据特定的算法,对数据进行归纳总结进而去预测某些未知数据的走向或者分类,亦或对特征进行分析。根据任务算法模型的不同可以把机器学习分为监督学习和无监督学习。
监督学习
监督学习的主要任务:利用以往数据来推测某个未知事物分类或者数据走势
数据特点:特征数据和标签数据
根据标签数据的不同可以分为:回归问题和分类问题
分类问题:标签是离散的并且预先知晓
回归问题:标签是连续的并且无法预先知晓
监督学习经典算法模型
1)分类问题
k-近邻 线性分类器 朴素贝叶斯 决策树 支持向量机 集成学习
2)回归问题
线性回归器 k-近邻回归器 支持向量机回归器 回归数 集成回归
无监督学习
无监督学习的主要任务:对客观事物的特征本身进行分析与认知,并不能预测客观特征
数据特点:只有特征数据
无监督学习经典算法模型
1)聚类
k-均值
2)特征降维
PCA主成分分析
拓展:深度学习
神经网络:卷积神经网络(CNN)、循环神经网络(RNN)等
三、性能
所谓性能,指的就是完成特定任务的质量的指标。如:准确率和召回率,均方误差和绝对平均误差
一个学习系统性能的改善要从两个方面:数据优化和算法优化。