本节书摘来自华章出版社《机器学习与R语言(原书第2版)》一书中的第1章,第1.6节,美] 布雷特·兰茨(Brett Lantz) 著,李洪成 许金炜 李舰 译更多章节内容可以访问云栖社区“华章计算机”公众号查看。
1.6 总结
机器学习起源于统计学、数据库科学和计算机科学的交叉。它是一个强大的工具,能够在大量的数据中找到可行动的洞察。然而,人们仍需持谨慎的态度,避免现实生活中机器学习的普遍滥用。
从概念上讲,机器学习涉及把数据抽象为结构化表示,并把这个结构化表示进行一般化从而推广到效用评估的行动中。实际上,机器学习者使用包含所学习概念的案例和特征的数据,然后把这个数据概括成一个模型的形式,接着该模型就被用作预测或者描述的目的。这些目的还能划分为具体的任务,包括分类、数值预测、模式识别和聚类。在大量的选择中,机器学习算法都是以输入数据和学习任务为基础进行算法选择的。
R通过R社区作者编写的添加包来为机器学习提供支持。这些强大工具的下载是免费的,但是要在使用它们之前先安装它们。当用到这些添加包时本书的每一章将介绍它们。
在第2章中,将继续介绍用于管理和准备机器学习数据的基本R命令。尽管你可能想跳过这一章而直接进入有趣的案例学习,但是通常的经验表明典型的机器学习项目有80%或者更多的时间将投入这一步中。所以,在这项早期工作中投入时间会带来后期的回报。