定义
利用计算机的运算能力,从大量的数据中发现一个 “函数”或“模型” ,并通过它来模拟现实世界事物间的关系,从而实现预测、判断等目的。建模的过程就是机器“学习”过程。
和传统程序的区别
传统程序员把已知的规则定义好后输入给机器的,而机器学习则从已知数据中,通过不断试错、自我优化、自身总结,归纳出来。传统程序是程序员来定义函数,而机器学习中是机器训练出函数。
标签
在机器学习中,自变量x1,x2,x3,...,xn,就叫做特征(feature),因变量y叫做标签(label)。而一些历史特征和一些历史标签的集合,就是机器学习的数据集。当机器通过训练找到一个函数/模型,我们还需要验证和评估,如果函数不好,就需要调整或者找新的函数/模型。
机器学习不一定要标签,可以分为三种情况来划分:
训练数据集全部有标签,叫监督学习(supervised learning);
训练数据集没有标签,叫做无监督学习(unsupervised learing);
在训练数据集中,有的数据有标签,有的数据没有标签,我们叫做半监督学习(semi-supervised learning)。
监督学习:监督学习被分为两类:回归问题和分类问题。
回归问题
标签是连续数值。比如预测房价、湿度、温度等。
分类问题
标签是离散性数值。比如预测明天是否会下雨、美国是否会被中国超越等。
无监督学习
目前它大多数只应用在聚类、降维等有限的场景中,往往作为数据预处理的一个子步骤显显身手。
半监督学习
半监督学习的原理、功能和流程与监督学习是很相似的,区别主要在于多了“伪标签的生成”环节,也是给无标签的数据人工“贴标签”。
很多问题无法通过“监督”学习来解决,比如说你要设计一个机器人来陪你玩牌?这就需要强化学习了。
强化学习
强化学习和监督学习的差异在于:监督学习是从数据学习,而强化学习是从环境给它的奖惩中学习。
强化学习智能体在调整策略的时候需要思路比较长远,它不一定每次都明确地选择最优动作,而是要在探索(未知领域)和利用(当前知识)之间找到平衡。它反复试错、不断收集反馈,收集可供自己学习的信号,每经过一个训练周期,都变得比原来强一点,经过亿万次的训练变得非常强大。《强化学习》第 2 版。
深度学习
深度学习是一种适用深层神经网络算法的机器学习模型,也可以应用于监督学习、半监督学习和无监督学习里,也可以应用于强化学习中。
长期以来,图形图像、自然语言和文本的处理是计算机行业的难题,因为这类信息的数据集,并不是结构化的,需要人工根据信息的类型来选择特征进行提取,这样对于特征的提取是有限的,就拿图像来说,只能提取出一些简单的滤波器。
深度学习能对非结构化的数据集进行自动的复杂特征提取,完全不需要人工干预。