1.机器学习起源
计算机结构理论的先驱、人工智能之父图灵在1950年发表的论文《计算机器与智能》中提出了具有开创意义的”图灵测试“,用来判断一台计算机是否达到具备人工智能的标准。
而机器学习作为人工智能的分支,从20世纪50年代开始,也经历了几次标志性的事件,比如程序与人类棋手对弈战胜人类棋手大师,这都使得我们朝着达到图灵测试更加接近。
2.机器学习综述
机器学习可以这样理解:如果一个程序在使用既有的经验执行某类任务的过程中被认定为是具备学习能力的,那么它一定需要展现出:利用现有的经验,不断改善其完成既定任务的性能的特质。
机器学习主要可以分成两类:监督学习(Supervised Learning)和无监督学习(Unsupervised Learning)。
2.1.监督学习
监督学习的任务重点在于根据已有经验知识对未知样本的目标进行预测,一般包括分类学习和回归预测两类。分类问题就是根据已知数据,对待分类数据所在类别进行预测,类别既是离散的,也是预先知道数量的;回归问题同样是预测问题,只是预测的目标往往是连续变量。
2.1.1分类学习
- 线性分类器
- 支持向量机分类
- 朴素贝叶斯
- K近邻分类
- 决策树分类
- 集成模型分类
2.1.2 回归预测
- 线性回归器
- 支持向量机回归
- K近邻回归
- 回归树
- 集成模型回归
2.2无监督学习
无监督学习则倾向于对事物本身特性的分析,一般包括数据降维和聚类问题等。数据降维是对事物的特性进行压缩和筛选;聚类则是依赖于数据的相似性,把相似的数据样本划分成一个簇进行分析。
2.2.1数据聚类
- K-means聚类
- 层次聚类
- DBSCAN聚类
2.2.2 特征降维
- 主成分分析(PCA)
2.3 一些名词解释
特征:反映数据内在规律的信息。
训练集:用来训练模型,确定模型参数的数据集。
测试集:在模型训练完成后,用来评价模型性能的数据集。
准确性:根据预测正确类别的百分比来评价其性能的指标。
特征抽取:逐条将原始数据转化成特征向量的形式。
泛化力:训练的模型对未知数据的预测能力。
过拟合:是指模型在训练集上表现的很好,在验证和测试阶段表现很差,几乎丧失了对未知数据的预测能力。
欠拟合:是指对训练集数据没用取得良好的拟合状态,而且在测试集上也表现不佳的情况。
交叉验证:重复的使用数据,把得到的样本数据进行切分,组合为不同的训练集和测试集,用训练集来训练模型,用测试集来评估模型预测的好坏。在此基础上可以得到多组不同的训练集和测试集,某次训练集中的某样本在下次可能成为测试集中的样本,即所谓“交叉”。