一、简要说明什么是机器学习?
机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。
二、简要说明机器学习的三要素及其含义
模型,策略,算法。
1.1 模型
模型就是我们要求的,可以由输入产生正确输出的函数或者概率模型。求出这个模型是我们最终的目标。因此我们第一步要确定模型的范围,也就是确定假设空间。
1.2 策略
由于假设空间是模型的集合,而我们要从集合中选择具体的模型,我们就应该考虑选择的指标与依据。策略就是考虑如何选择模型。
1.3 算法
算法是指学习模型的具体的计算方法,也就是求模型中的具体的参数的方法。一般会用到最优化的算法,比如梯度下降等。
三、说明什么是监督学习?什么是非监督学习?
机器学习按照学习方式不同,分为很多类型
- 监督学习
- 非监督学习
- 强化学习
- 半监督学习
什么是监督学习?
监督学习就是标明一些数据是对的,另一些数据是错的,然后让程序预测,新的数据是对的还是错的。所以说,有监督学习,必须是有标签的。
什么是无监督学习?
无监督学习,顾名思义,就是不对数据进行标明,让机器自动去判断,哪些数据比较像,归到一类等等。
无监督学习注重的是把特征对象归为类。
什么是半监督学习?
半监督学习是模式识别和机器学习领域研究的重点问题,是监督学习与无监督学习相结合的一种学习方法。半监督学习使用大量的未标记数据,以及同时使用标记数据,来进行模式识别工作。
什么是强化学习?
强化学习的核心是一个概念,即最佳的行为或行动是由积极的回报来强化的。机器和软件代理使用强化学习算法,通过以环境的反馈为基础来确定理想行为。
强化学习需要大量的数据。
比如在超级玛丽这一款游戏中,水道工通过环境的不断地变化,通过吃蘑菇进行不断地强化自己完善自己,这个过程就可以类比如强化学习。
四、举例说明监督学习的应用场景。
高斯朴素贝叶斯
场景:该模型常用于性别分类,即通过一些测量的特征,包括身高、体重、脚的尺寸,判定一个人是男性还是女性。
优点:这个模型的优势是处理连续数据,特别当数据是高斯分布时,有一个很好的表现。处理连续数据数值问题的另一种常用技术是通过离散化连续数值的方法。通常,当训练样本数量较少或者是精确的分布已知时,通过概率分布的方法是一种更好的选择。在大量样本的情形下离散化的方法表现最优,因为大量的样本可以学习到数据的分布。
缺点:由于高斯朴素贝叶斯使用的是概率分布估计的方法,不合适在大数据集上应用,因为容易出现欠拟合,在数据分布不准确时或数据样本很大时,表现很差。
决策树
场景:一个相亲用决策树的应用,每个节点是一个评判标准,最后决定是否要嫁/娶。
优点:决策过程接近人的思维习惯,模型容易理解。
缺点:决策树学习方法的准确率不如其他模型,不支持在线学习,有新样本来的时候需要重建决策树,容易产生过拟合现象。
KNN
场景:KNN的应用有分类未知案例的项目(摘自百度百科)。 优点:无需估计参数,简单,易于理解。特别适合于多分类问题(multi-modal,对象具有多个类别标签), KNN比SVM的表现要好(svm更适合二分类)。 缺点:当有偏斜类的情况下,由于算法只计算最近的k个样本,假设小样本总数小于k/2,即使都很近,也会分错。该方法的另一个不足之处是计算量较大,因为对每一个待分类的文本都要计算它到全体已知样本的距离,才能求得它的K个最近邻点。
五、准确率越高就能说明模型的分类性能越好吗?
准确率越高不能说明模型的分类性能越好。
我们举一个极端点的例子。因为癌症病人的比例在人群中属于少数,如果我们的模型将所有人都诊断为健康人,可以取得非常高的正确率(Accuracy),然而这样显然是没意义的,因为不能够把潜在的癌症病人检测出来,因此,这个问题我们需要关注模型的召回率(Recall)和精准率(Precision),而且经过我们后面的分析可以看出召回率更加重要。
六、什么是精准率和召回率?
实际上非常简单,精确率是针对我们预测结果而言的,它表示的是预测为正的样本中有多少是真正的正样本。那么预测为正就有两种可能了,一种就是把正类预测为正类(TP),另一种就是把负类预测为正类(FP),也就是
P=TP/(TP+FP)
而召回率是针对我们原来的样本而言的,它表示的是样本中的正例有多少被预测正确了。那也有两种可能,一种是把原来的正类预测成正类(TP),另一种就是把原来的正类预测为负类(FN)。
R=TP/(TP+FN)
其实就是分母不同,一个分母是预测为正的样本数,另一个是原来样本中所有的正样本数。
七、朴素贝叶斯分类的基本原理
贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类,而朴素朴素贝叶斯分类是贝叶斯分类中最简单,也是常见的一种分类方法。
朴素贝叶斯算法是假设各个特征之间相互独立
八、朴素贝叶斯分类的优缺点
优点:
- 算法逻辑简单,易于实现。
- 分类过程中时空开销小
缺点:
理论上,朴素贝叶斯模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此,这是因为朴素贝叶斯模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,在属性个数比较多或者属性之间相关性较大时,分类效果不好。而在属性相关性较小时,朴素贝叶斯性能最为良好。
九、朴素贝叶斯分类算法的应用场景
需要一个比较容易解释,而且不同维度之间相关性较小的模型的时候。
至今仍在垃圾邮件过滤器中使用。
KNN的应用场景
需要一个特别容易解释的模型的时候。
比如需要向用户解释原因的推荐算法。
决策树的应用场景
因为它能够生成清晰的基于特征(feature)选择不同预测结果的树状结构,数据分析师希望更好的理解手上的数据的时候往往可以使用决策树。
同时它也是相对容易被攻击的分类器。这里的攻击是指人为的改变一些特征,使得分类器判断错误。常见于垃圾邮件躲避检测中。因为决策树最终在底层判断是基于单个条件的,攻击者往往只需要改变很少的特征就可以逃过监测。
十、KNN算法和K聚类算法的区别和联系
区别:
两种算法的根本区别是K聚类算法本质上是无监督学习,而KNN是监督学习;K聚类算法是聚类算法,而KNN分类(回归)算法。
联系:
算法都包括给定一个点,在数据集中查找离它最近的点的过程。
十一、决策树算法的基本思想以及ID3算法和C4.5算法的区别。
决策树学习的本质是从训练数据集上归纳出一组分类规则,从而对新数据进行分类。
ID3算法:
在决策树各个结点上应用信息增益准则来选择特征。
C4.5算法:
在决策树各个结点上应用信息增益比来选择特征。
十二、感知器算法和logistics的区别和联系
逻辑回归在线性回归的基础上实现了分类功能。
区别:
感知器算法是用符号函数输出离散的值,逻辑回归本质是回归,需要输出一个连续的值。
优化目标不一样,感知器算法是寻找参数最小化误分点到平面的距离,logistics算法是寻找参数最大似然。
联系:
都使用了梯度下降法;两者都为线性分类器,只能处理线性可分的数据。