监督学习
教导AI系统的一个常用技术是通过使用大量带标签的例子(labeled examples)来训练它们。 这些机器学习系统被馈入大量数据,这些数据已被标注以突出感兴趣的特征。 这些可能是被标记以表明它们是否包含狗的照片,或带有脚注以表明“bass”一词与音乐还是鱼类有关的书面句子。 经过训练后,系统便可以将这些标签(labels)应用于新数据,例如刚刚上传的照片中的一只狗。
这种通过例子教导机器的过程称为监督学习(supervised learning),标记这些例子的角色通常由在线工作人员执行,他们通过Amazon Mechanical Turk之类的平台雇用。
另请参阅:人工智能如何使call centers更上一层楼
训练这些系统通常需要大量的数据,有些系统需要搜寻数百万个例子来学习如何有效地执行任务,尽管在大数据和大规模数据挖掘的时代,这越来越有可能。训练数据集庞大且规模不断扩大,Google的Open Images Dataset拥有约900万张图像,而其带有标签的视频存储库YouTube-8M链接了700万个带有标签的视频。 ImageNet是此类早期数据库之一,拥有超过1400万张分类图像。该文件经过两年的编写,由近50,000人(其中大部分是通过Amazon Mechanical Turk招募的)汇集在一起的,他们检查,分类并标记了将近10亿张候选图片。
从长远来看,与庞大的计算能力相比,访问具有大量标记数据集的重要性可能不那么重要。
近年来,生成对抗网络(Generative Adversarial Networks,GANs)展示了机器学习系统如何通过馈入少量标记数据然后能够生成大量新数据来自学。
这种方法可能会导致半监督学习(semi-supervised learning)的兴起,在半监督学习中,系统可以使用远远少于当今使用监督学习的训练系统所需要的标记数据来学习如何执行任务。
非监督学习
相比之下,非监督学习(unsupervised learning)则使用另一种方法,即算法尝试识别数据中的模式(patterns),寻找可用于对数据进行分类的相似性。
一个可能的例子是将重量相似的水果或发动机尺寸相似的汽车聚集在一起。
该算法并非预先设置为挑选特定类型的数据,它只是寻找可以根据其相似性进行分组的数据,例如Google News每天将相似主题的故事分组在一起。
强化学习
强化学习(reinforcement learning)的粗略类比是当宠物在表演把戏时奖励其零食。
在强化学习中,系统尝试根据其输入数据最大化奖励,基本上要经过反复试验的过程,直到获得最佳结果。
强化学习的一个例子是Google DeepMind的Deep Q-network,它已被用于在各种经典视频游戏中实现最佳人类表现。 系统从每个游戏中获取像素,并确定各种信息,例如屏幕上对象之间的距离。
通过查看每场游戏中获得的分数,系统会建立一个模型,该模型的动作将在不同情况下使分数最大化,例如,在视频游戏Breakout的情况下,应将球拍移至哪个位置以拦截球。