机器学习
机器学习基本概念
机器学习的概念最早由美国计算机科学家Arthur Lee Samuel于1959年提出,后来,美国另外一位计算机科学家Tom M. Mitchell给出该术语的定义:
A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P if its performance at tasks in T, as measured by P, improves with experience E.
以上的定义可以这样解释:对于某给定的任务T,在合理的性能度量方案P的前提下,某计算机程序可以自主学习任务T的经验E,随着提供合适、优质、大量的经验E,该任务对于任务T的性能逐步提高。
然而,这个概念是晦涩难懂的。从简单的角度讲,机器学习是人工智能的一个分支,计算机系统通过使用算法与数据模型,对输入的数据按照算法与模型指定的方式来学习。随着训练的进行,逐渐改进与提高其在特定任务上的性能。
人工智能与机器学习
人工智能(Artificial Intelligence)是计算机科学的一个分支,目的是让计算机能够像人一样,对外界的环境做出反应。而机器学习,正是实现人工智能的一种方式。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-EHEw8o4E-1589122947629)(images/03.png “机器学习”)]
模型的训练
输入模型的数据,我们称为训练数据。通过不断的进行训练,最终得到一个合适的模型,从而可以对未知的数据进行预测。而这个过程,是与我们人类学习的过程是相似的。只不过人的认知与判断是通过经验得到的,而机器的认知与判断是通过数据得到的。
我们可以将模型理解为一个函数(一种映射规则)。由训练数据来确定函数的参数,当参数确定好之后,我们就可以利用该模型(函数)对未知的数据(非训练时使用的数据)进行求值,也就是进行预测。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ah64xIiY-1589122947650)(images/04.png “模型”)]
其中,用于训练模型的每条数据,我们称为一个样本,而样本中的每个属性,我们称为特征。每个样本的目标输出值,我们称为标签(监督学习)。特征习惯使用x表示,标签习惯使用y表示。这与函数的定义y = f ( x ) y = f(x)y=f(x)相符。
假设当前具有如下已知的样本数据(含有标签):
x(特征) | y(标签) |
1 | 2 |
2 | 3 |
3 | 4 |
4 | 5 |
5 | 6 |
6 | 7 |
我们不难找出x与y之间的关系,因此,很容易确定模型:
y=x+1
这样,当产生新的未知数据时(没有标签的数据),我们就可以使用该模型进行预测了。然而,现实中的数据不可能像上例中那么简单,模型也不可能总是通过肉眼就能观察出来的,这就需要我们通过机器学习算法来进行建模了。
机器学习分类
机器学习可以分为如下几类:
- 监督学习
- 分类
- 回归
- 无监督学习
- 聚类
- 降维
- 半监督学习
- 强化学习
开发流程
- 明确需求与目的
- 数据收集
- 内部数据
- 购买数据
- 爬取数据
- 调查问卷
- 数据预处理
- 数据合并
- 数据清洗
- 缺失值
- 异常值
- 重复值
- 数据转换
- 特征工程
- 数据建模
- 建立模型
- 选择模型
- 测试模型
- 部署模型