@[toc]
机器学习的相关算法了解和总结
1、机器学习的一般步骤
训练集训练 -> 提取特征向量 -> 结合一定的算法(比如决策树、KNN) -> 得到结果
机器学习的几个核心主要是 分类、随机、决策、迭代、猜测
其实就是一个通过经验总结进行结果猜测的过程,那么,提供的
经验样本(训练数据)越多,优化(迭代)的越好,猜测的准确度就越高
2、相关算法
Adaboost 算法
Adaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),
然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)
K均值聚类算法
k均值聚类算法(k-means clustering algorithm)是一种迭代求解的聚类分析算法
最近邻算法 KNN
邻近算法,或者说K最邻近(KNN,K-NearestNeighbor)分类算法是数据挖掘分类技术中
最简单的方法之一
所谓K最近邻,就是K个最近的邻居的意思,说的是每个样本都可以用它最接近的K个邻近值
来代表。近邻算法就是将数据集合中每一个记录进行分类的方法
朴素贝叶斯
朴素贝叶斯法(Naive Bayes model)是基于贝叶斯定理与特征条件独立假设的分类方法
逻辑回归分析
logistic回归 又称 logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,
疾病自动诊断,经济预测等领域
logistic回归 是一种概率分析模型,通过自变量和因变量推测某件事情发生(或者某种情况出现)
的概率
马尔可夫过程
马尔可夫过程(Markov process)是一类随机过程。它的原始模型马尔可夫链,
由俄国数学家A.A.马尔可夫于1907年提出
3、决策树
决策树(Decision Tree)是一种简单但是广泛使用的分类器,我们通过训练数据构建
决策树,可以高效的对未知的数据进行分类
决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取
净现值的期望值大于等于零的概率,
评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种
决策分支画成图形很像一棵树的枝干,故称决策树
# 优点
1、决策树模型可以读性好,具有描述性,有助于人工分析
2、效率高,决策树只需要一次构建,反复使用,每一次预测的最大计算次数不超过决策树的深度
在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系
算法演进 ID3 C4.5 C5.0
4、支持向量机 SVM
支持向量机(Support Vector Machines,SVM)是一种二分类模型
它将实例的特征向量映射为空间中的一些点,SVM 的目的就是想要画出一条线,
以 “最好地” 区分这两类点,以至如果以后有了新的点,这条线也能做出很好的分类
SVM 适合中小型数据样本、非线性、高维的分类问题
SVM 通过点到向量线的垂直距离最大,从而得到一条最合适的划分线
但是样本的特征很可能是高纬度的,此时的样本空间划分就不是一条线了,此时称为超平面
但是很多情况下,样本是线性不可区分的,数据集在空间中对应的向量无法被一个超平面区
分开,那么此时,就需要通过把样本映射到高维空间中,比如三维、六维
一个 SVM 如果训练得出的支持向量个数比较少,那么SVM 训练出的模型比较容易被泛化
Python 的 SVM 可以通过 sklearn 来学习
核函数
求内积
5、神经网络
人工神经网络(Artificial Neural Networks,简写为ANNs)也简称为
神经网络(NNs)或称作连接模型(Connection Model)
它是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型
这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的
神经网络通过分类器推断某个输入是某个结果的概率,然后通过逐步微调参数(程序反复迭代),
使得推断(猜测)的结果无限趋近于真实情况
6、随机森林算法
随机森林就是通过集成学习的思想将多棵树集成的一种算法,它的基本单元是决策树
而它的本质属于机器学习的一大分支——集成学习(Ensemble Learning)方法
成百上千棵决策树组成了森林
随机森林算法相较于其他算法,有很好的准确率,并且能有效的运行在大数据集上
相关的基础知识概念
1、信息、熵以及信息增益的概念
2、决策树
3、集成学习
随机森林的思想
森林中有很多的决策树,每棵树都是独立的。每棵决策树都可以发表自己对于某个问题的看法
少数优秀的决策树的决策结果,将获得更高的权重,从而组成一个强分类器
然后决策树对结果进行选举投票,来确认最终的结果
每棵决策树随机从训练集中抽取样本进行训练,这样,每棵树的训练集都是不同的,但是树的训练集里面可能含有重复的样本(样本抽取并不会减少样本库数量)
进行随机抽取样本训练的目的,是为了获得不同的决策树,但是不同的决策树的训练样本有一定的交集,这是为了防止所有的决策树对于某些事情的结果存在偏见