本节书摘来自华章出版社《机器学习与R语言(原书第2版)》一书中的第1章,第1.1节,美] 布雷特·兰茨(Brett Lantz) 著,李洪成 许金炜 李舰 译更多章节内容可以访问云栖社区“华章计算机”公众号查看。
第1章
机器学习简介
如果科幻故事是可信的,那么人工智能的发明将会不可避免地导致机器和其制造者之间的末日战争。在计算机使用的早期,计算机被教会玩井字棋和国际象棋这样一些简单的游戏。后来,机器被用来控制交通信号灯和通信,随后用来控制军用无人机和导弹。一旦计算机有感知力并且知道如何教会自己,机器的发展将产生不祥的改变:计算机不再需要人类程序员了,人类那时也就被“删除”(deleted)了。
幸运的是,在写本书的时候,机器还是需要用户来进行输入的。
尽管你对机器学习的印象可能如那些大众媒体所描述的那样丰富多彩,但是现在的算法太注重特定的应用,因此不会呈现出具有自我意识那样的危险。现在机器学习的目标不是创造人工大脑,而是帮助我们使世界上的海量数据存储具有意义。
把这些误解放在一边,在本章结束时,你会对机器学习有更加清晰的理解。本章将介绍一些基本概念,通过它们来定义和区分常用的机器学习方法。
本章中,你将学到下列知识:
机器学习的起源及其实际应用。
计算机如何将数据转换为知识和行动。
如何为数据匹配机器学习算法。
机器学习领域提供了把数据转换成可行动的知识的算法集合。继续阅读可以了解使用R将机器学习应用到现实世界中的问题是多么容易。
1.1 机器学习的起源
自出生以来,我们就和各种数据打交道。我们身体的感官—眼睛、耳朵、鼻子、舌头以及神经一直被数据包围着,大脑把它们转化成视觉、听觉、嗅觉、味觉和感知。通过语言的交流,我们得以和他人分享这些感受。
从书面语言出现,人们的观测就被记录下来。猎人监视动物群体的移动,早期的宇航员记录行星和恒星的模式,城市记录税收、出生和死亡情况。现在,由于不断发展的计算机数据库的应用,这些观察的过程逐步自动化,记录也变得系统化。
电子传感器的发明使得可以记录的数据的数量和资源呈爆炸式增长。专用的传感器可以观测、可以听声音、可以闻味道,也可以感受环境。这些传感器处理数据的方式和人类完全不同。与人类的有限且主观的注意力不同,电子传感器从不休息并且从来不会让它的判断扭曲它所感知到的。
尽管传感器不会被主观成分模糊判断,但是它们也不一定给出现实情况的单一且确定性的描述。由于硬件的限制,有些传感器有固有测量误差,另一些受观测范围的限制。与拍摄彩色照片的相机相比,拍摄黑白照片的相机可能会给出与其拍摄物完全不同的写照。类似地,显微镜对事实的描绘和望远镜的描绘也是截然不同的。
通过数据库和传感器,我们生活的方方面面都被记录下来。政府、企业和个人都在记录并报告他们生活中的信息。气象传感器记录温度和气压,监视探头监视着人行道和地铁站,各种电子行为如交易、通话、建立友好关系等都会被监控。
根据如此庞大的数据量,一些人声称我们进入了大数据的时代,这可能有一点哗众取宠。人类总是身处大量的数据之中。使当今这个时代变得与众不同的是我们有大量的记录数据,它们大部分可以直接用计算机来访问。仅仅一次网络搜索,经过手指的点击,大量有趣的数据就变得更容易获取。只要有理解数据的系统方法,这些大量信息就会成为有潜力的决策信息。
机器学习的研究领域是发明计算机算法,把数据转化为智能行动。这个领域是在现有数据、统计方法以及计算能力迅速并且同步发展的环境下发展起来的。数据量的增加使得计算能力增强成为必需条件,而计算能力的增强又反过来促进了分析大数据的统计方法的发展。这就创造了一个闭环式的发展,它使得更多更加有趣的数据得以收集。
机器学习的一个紧密相关的学科是数据挖掘,它涉及从大型的数据库中产生新的洞察。如其名称所示,数据挖掘是系统地寻找可以用于行动的有价值的信息。尽管对于这两个领域究竟有多少重叠存在一些争议,但是一个可能的差别是机器学习侧重于教计算机如何利用数据来解决问题,而数据挖掘则侧重于教计算机识别模式,然后人类可以用该模式来解决问题。
几乎所有的数据挖掘都涉及机器学习,而并不是所有的机器学习都涉及数据挖掘。例如,你可能应用机器学习来挖掘汽车交通数据中与事故率有关的模式;另一方面,如果是计算机自己学习如何驾驶汽车,那么就是没有数据挖掘的纯粹机器学习。
“挖掘数据”有时用作一个贬义词,用来描述挑选最合适的数据来支持某个理论的欺骗性行为。