● 机器学习及其分类
我们知道,机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
按照学习方式进行分类,机器学习算法可分为监督式学习,非监督式学习和强化学习三种。
①
监督学习目的是使用有类标的训练数据构建模型,利用训练得到的模型对未来数据进行预测,监督是指训练数据集中每一个样本均有一个已知的输出项(类标,label)。监督式学习的常见应用场景如分类问题和回归问题。常见算法有逻辑回归(Logistic Regression)和反向传递神经网络(Back Propagation Neural Network)
说到监督式学习不得不提到分类,分类为监督式学习一个子类,目的是基于对过往类标已知示例的观察与学习,实现对新样本类标的预测。例如经典的检测垃圾邮件的例子,这是一个典型的二分类问题;又如数字识别,0-9十个数字的识别分类这是一个典型的多分类问题。
②
与监督式学习不一样,非监督式学习的对象大多是无类标或者总体分布趋势不明朗的数据。通过非监督式学习,在没有已知输出变量和反馈函数指导的情况下提取有效信息探索数据的整体结构。
就像非监督式学习和监督式学习相对一样,与分类相对应的是聚类。聚类是一种探索性数据分析技术,在没有任何相关先验信息情况下,将数据划分为有意义的小的组别(即簇,cluster)
③
与监督式学习、非监督式学习相并列的是强化学习。其目标是构建一个系统(Agent),在与环境(environment)交互过程中提高系统的性能。环境的当前状态信息中通常包含一个反馈信号。我们可以将强化学习视为与监督学习相关的一个领域。只不过,在强化学习中,这个反馈不是一个确定的类标或者连续类型的值,而是一个通过反馈函数产生的对当前系统行为的评价。
一个常用的强化学习例子就是棋类对弈游戏。在此,Agent根据棋盘上的当前局势(环境)决定落子位置,游戏结束胜负的判定可以作为激励信号。
● 十大机器学习算法
这里仅列举出机器学习中,不得不掌握的十大算法,具体介绍将在后期进行展开~
算法如下:
- 决策树
- 随机森林算法
- 逻辑回归
- SVM
- 朴素贝叶斯
- K最近邻算法
- K均值算法
- Adaboost算法
- 神经网络
- 马尔可夫
对于以上算法,大家掌握了多少呢?什么?还是小白一个?没事儿,下期小詹将展开生动详细的介绍噢~