人工智能并不是一个新的术语,它已经有几十年的历史了,大约从
80
年代初开始,计算机科学家们开始设计可以学习和模仿人类行为的算法。
在算法方面,最重要的算法是神经网络,由于过拟合而不是很成功(模型太强大,但数据不足)。尽管如此,在一些更具体的任务中,使用数据来适应功能的想法已经取得了显着的成功,并且这也构成了当今机器学习的基础。
在模仿方面,人工智能专注于图像识别,语音识别和自然语言处理。人工智能专家们花费了大量的时间来创建诸如边缘检测,颜色配置文件, N-gram ,语法树等。不过,这些进步还不足以达到我们的需求。
传统的机器学习:
1. 选择一个模型结构 (例如 逻辑 回 归 ,随机森林等)。
2. 用 训练 数据 ( 输 入和 输 出) 输 入模型。
3. 学 习 算法将 输 出最 优 模型 (即具有使 训练错误 最小化的特定参数的模型)。
每种模式都有自己的特点,在一些任务中表现不错,但在其他方面表现不佳。但总的来说,我们可以把它们分成低功耗(简单)模型和高功耗(复杂)模型。选择不同的模型是一个非常棘手的问题。
为了缓解 “ 不适合的问题 ” ,数据科学家通常会运用他们的 “ 领域知识 ” 来提出 “ 输入特征 ” ,这与输出关系更为直接。(例如,返回二次关系 y = 5 * square ( x ),如果创建了一个特征 z = x ^ 2 ,则可以拟合线性回归: y = a * z + b ,通过选择 a = 5 和 b = 0 )。
机器学习的主要障碍是特征工程这个步骤,这需要领域专家在进入训练过程之前就要找到非常重要的特征。特征工程步骤是要靠手动完成的,而且需要大量领域专业知识,因此它成为当今大多数机器学习任务的主要瓶颈。
换句话说,如果我们没有足够的处理能力和足够的数据,那么我们必须使用低功耗 / 更简单的模型,这就需要我们花费大量的时间和精力来创建合适的输入特征。这是大多数数据科学家今天花时间去做的地方。
神 经 网 络 的回 归:
在大数据时代,云计算和大规模并行处理基础架构的共同发展,使得机器处理能力在二十一世纪初得到了极大的提升。我们不再局限于低功耗 / 简单的模型。例如,当今最流行的两种主流机器学习模型是随机森林和梯度提升树。尽管如此,两者都非常强大,并且提供了非线性模型拟合的训练数据,但数据科学家仍然需要仔细地创建特征以获得良好的性能。
与此同时,计算机科学家重新使用神经网络的许多层来完成这些人类模仿的任务。这给 DNN (深度神经网络)带来了新的生机,并在图像分类和语音识别任务方面提供了重大突破。 DNN 的主要区别在于,你可以将原始信号(例如 RGB 像素值)直接输入 DNN ,而不需要创建任何域特定的输入功能。通过多层神经元(这就是为什么它被称为 “ 深度 ” 神经网络), DNN 可以 “ 自动 ” 通过每一层产生适当的特征,最后提供一个非常好的预测。这极大地消除了寻找 “ 特征工程 ” 的麻烦,这是数据科学家们最喜欢看到的。
DNN 也演变成许多不同的网络拓扑结构,所以有 CNN (卷积神经网络), RNN (递归神经网络), LSTM (长期短期记忆), GAN (生成敌对网络),转移学习,注意模型( attention model )所有的这些被统称为深度学习( Deep Learning ),它正在引起整个机器学习界的关注。
强化学习:
另一个关键组成部分是关于如何模仿一个人(或动物)的学习,设想感知 / 行为 / 奖励循环的非常自然的动物行为。一个人或者一个动物首先会通过感知他或者她所处的状态来了解环境。在此基础上,他或者她会选择一个 “ 动作 ” ,将他或者她带到另一个 “ 状态 ” 。那么他或她将获得 “ 奖励 ” ,循环重复,直到他或她消失。这种学习方式(称为强化学习)与传统监督机器学习的曲线拟合方法有很大不同。尤其是,强化学习学习得非常快,因为每一个新的反馈(例如执行一个行动并获得奖励)都被立即发送到影响随后的决定。
强化学习也提供了预测和优化的平滑整合,因为它在采取不同的行动时保持当前状态的信念和可能的转换概率,然后做出决定哪些行动可以导致最佳结果。
深度学 习 + 强化学习 = AI
在算法方面,最重要的算法是神经网络,由于过拟合而不是很成功(模型太强大,但数据不足)。尽管如此,在一些更具体的任务中,使用数据来适应功能的想法已经取得了显着的成功,并且这也构成了当今机器学习的基础。
在模仿方面,人工智能专注于图像识别,语音识别和自然语言处理。人工智能专家们花费了大量的时间来创建诸如边缘检测,颜色配置文件, N-gram ,语法树等。不过,这些进步还不足以达到我们的需求。
传统的机器学习:
机器学习(ML)技术在预测中发挥了重要的作用,ML经历了多代的发展,形成了具有丰富的模型结构,例如:
1.线性回归。
2.逻辑回归。
3.决策树。
4.支持向量机。
5.贝叶斯模型。
6.正则化模型。
7.模型集成(ensemble)。
8.神经网络。
这些预测模型中的每一个都基于特定的算法结构,参数都是可调的。训练预测模型涉及以下步骤:1. 选择一个模型结构 (例如 逻辑 回 归 ,随机森林等)。
2. 用 训练 数据 ( 输 入和 输 出) 输 入模型。
3. 学 习 算法将 输 出最 优 模型 (即具有使 训练错误 最小化的特定参数的模型)。
每种模式都有自己的特点,在一些任务中表现不错,但在其他方面表现不佳。但总的来说,我们可以把它们分成低功耗(简单)模型和高功耗(复杂)模型。选择不同的模型是一个非常棘手的问题。
由于以下原因,使用低功率/简单模型是优于使用高功率/复杂模型:
- 在我们拥有强大的处理能力之前,训练高功率模型将需要很长的时间。
- 在我们拥有大量数据之前,训练高功率模型会导致过度拟合问题(因为高功率模型具有丰富的参数并且可以适应广泛的数据形状,所以我们最终可能训练一个适合于特定到当前的训练数据,而不是推广到足以对未来的数据做好预测)。
为了缓解 “ 不适合的问题 ” ,数据科学家通常会运用他们的 “ 领域知识 ” 来提出 “ 输入特征 ” ,这与输出关系更为直接。(例如,返回二次关系 y = 5 * square ( x ),如果创建了一个特征 z = x ^ 2 ,则可以拟合线性回归: y = a * z + b ,通过选择 a = 5 和 b = 0 )。
机器学习的主要障碍是特征工程这个步骤,这需要领域专家在进入训练过程之前就要找到非常重要的特征。特征工程步骤是要靠手动完成的,而且需要大量领域专业知识,因此它成为当今大多数机器学习任务的主要瓶颈。
换句话说,如果我们没有足够的处理能力和足够的数据,那么我们必须使用低功耗 / 更简单的模型,这就需要我们花费大量的时间和精力来创建合适的输入特征。这是大多数数据科学家今天花时间去做的地方。
神 经 网 络 的回 归:
在大数据时代,云计算和大规模并行处理基础架构的共同发展,使得机器处理能力在二十一世纪初得到了极大的提升。我们不再局限于低功耗 / 简单的模型。例如,当今最流行的两种主流机器学习模型是随机森林和梯度提升树。尽管如此,两者都非常强大,并且提供了非线性模型拟合的训练数据,但数据科学家仍然需要仔细地创建特征以获得良好的性能。
与此同时,计算机科学家重新使用神经网络的许多层来完成这些人类模仿的任务。这给 DNN (深度神经网络)带来了新的生机,并在图像分类和语音识别任务方面提供了重大突破。 DNN 的主要区别在于,你可以将原始信号(例如 RGB 像素值)直接输入 DNN ,而不需要创建任何域特定的输入功能。通过多层神经元(这就是为什么它被称为 “ 深度 ” 神经网络), DNN 可以 “ 自动 ” 通过每一层产生适当的特征,最后提供一个非常好的预测。这极大地消除了寻找 “ 特征工程 ” 的麻烦,这是数据科学家们最喜欢看到的。
DNN 也演变成许多不同的网络拓扑结构,所以有 CNN (卷积神经网络), RNN (递归神经网络), LSTM (长期短期记忆), GAN (生成敌对网络),转移学习,注意模型( attention model )所有的这些被统称为深度学习( Deep Learning ),它正在引起整个机器学习界的关注。
强化学习:
另一个关键组成部分是关于如何模仿一个人(或动物)的学习,设想感知 / 行为 / 奖励循环的非常自然的动物行为。一个人或者一个动物首先会通过感知他或者她所处的状态来了解环境。在此基础上,他或者她会选择一个 “ 动作 ” ,将他或者她带到另一个 “ 状态 ” 。那么他或她将获得 “ 奖励 ” ,循环重复,直到他或她消失。这种学习方式(称为强化学习)与传统监督机器学习的曲线拟合方法有很大不同。尤其是,强化学习学习得非常快,因为每一个新的反馈(例如执行一个行动并获得奖励)都被立即发送到影响随后的决定。
强化学习也提供了预测和优化的平滑整合,因为它在采取不同的行动时保持当前状态的信念和可能的转换概率,然后做出决定哪些行动可以导致最佳结果。
深度学 习 + 强化学习 = AI
与经典的ML技术相比,DL提供了一个更强大的预测模型,通常可以产生良好的预测结果。与经典优化模型相比,强化学习提供了更快的学习机制,并且更适应环境的变化。
本文由@阿里云云栖社区组织翻译。
文章原标题《how-ai-differs-from-ml》
作者:Ricky Ho
译者:虎说八道,审校:。
文章为简译,更为详细的内容,请查看原文文章