《R语言机器学习:实用案例分析》——2.1节理解机器学习

简介:

本节书摘来自华章社区《R语言机器学习:实用案例分析》一书中的第2章,第2.1节理解机器学习,作者[印度] 拉格哈夫·巴利(Raghav Bali)迪潘简·撒卡尔(Dipanjan Sarkar),更多章节内容可以访问云栖社区“华章社区”公众号查看

2.1 理解机器学习
我们是不是被教导说,计算机系统需要编程才能完成特定任务?只有对它们进行编程的情况下,它们在完成任务时才可能快百万倍。我们必须对每一个步骤进行编程,然后才能使这些系统工作并完成任务。那么机器学习是不是一个非常矛盾的概念?
简单地说,机器学习指的是一种教授系统学习执行特定任务的方法,例如学习一个功能。尽管听起来很简单,但它有点混乱而又难以理解。感觉混乱的原因是,我们观察系统(特别是计算机系统)工作的方式与我们学习的方式是两种几乎没有交集的概念。更难以理解的原因是,虽然学习是人类固有的能力,但是很难用文字表达,更不用说教授给系统。
那么机器学习是什么呢?在我们试着回答这个问题之前,需要在哲学层面理解,机器学习不仅仅是一种编程方式。机器学习意味着很多内容。
有许多种描述机器学习的方法。延用我们前一章中提出的高层次的定义,让我们看一看1997年Tom Mitchell给出的定义:
“如果在经验E的帮助下,依据性能指标P度量的任务T的性能有了提升,则称计算机程序就任务T和性能指标P从经验E中学习。”
Tom Mitchell教授简介
他生于1951年,是美国计算机科学家,卡耐基–梅隆大学(Carnegie Mellon University,CMU)教授。他也是CMU机器学习系主任。他以在机器学习、人工智能和认知神经科学领域的贡献而闻名。他是各种机构的成员,例如人工智能进展协会。
现在,让我们尝试通过一个例子来理解这个简单而又强大定义的含义。假如我们想要建立一个系统来预测天气。对于当前的例子,系统的任务T是预测某个地方的天气。为了完成这个任务,它需要依靠以往的天气信息。我们将这称为经验E。系统的性能指标P用来衡量对任意一天的天气预测的好坏程度。因此,我们可以归纳为,如果一个系统在历史信息(或者称为经验E)的帮助下,能够更好地预测天气(或者称为提升它的性能P),则认为系统成功地学习了如何预测天气(或任务T)。
正如我们在上述例子中所看到的,这个定义不仅能帮助我们从工程的角度理解机器学习,也给我们提供了工具来量化这些术语。这个定义帮助我们了解到,学习一个特定任务涉及理解和处理以经验形式呈现的数据。它还提到,如果一个计算机程序进行学习,它的性能将在经验的帮助下得到提升,这和我们的学习方式非常相近。

相关文章
|
机器学习/深度学习 算法 数据可视化
机器学习模型中特征贡献度分析:预测贡献与错误贡献
本文将探讨特征重要性与特征有效性之间的关系,并引入两个关键概念:预测贡献度和错误贡献度。
987 3
|
8月前
|
数据采集 机器学习/深度学习 数据可视化
探索大数据分析的无限可能:R语言的应用与实践
探索大数据分析的无限可能:R语言的应用与实践
338 9
|
9月前
|
机器学习/深度学习 数据采集 分布式计算
大数据分析中的机器学习基础:从原理到实践
大数据分析中的机器学习基础:从原理到实践
441 3
|
11月前
|
机器学习/深度学习 传感器 运维
使用机器学习技术进行时间序列缺失数据填充:基础方法与入门案例
本文探讨了时间序列分析中数据缺失的问题,并通过实际案例展示了如何利用机器学习技术进行缺失值补充。文章构建了一个模拟的能源生产数据集,采用线性回归和决策树回归两种方法进行缺失值补充,并从统计特征、自相关性、趋势和季节性等多个维度进行了详细评估。结果显示,决策树方法在处理复杂非线性模式和保持数据局部特征方面表现更佳,而线性回归方法则适用于简单的线性趋势数据。文章最后总结了两种方法的优劣,并给出了实际应用建议。
661 7
使用机器学习技术进行时间序列缺失数据填充:基础方法与入门案例
|
11月前
|
机器学习/深度学习 数据可视化 大数据
机器学习与大数据分析的结合:智能决策的新引擎
机器学习与大数据分析的结合:智能决策的新引擎
617 15
|
11月前
|
机器学习/深度学习 数据采集 运维
机器学习在运维中的实时分析应用:新时代的智能运维
机器学习在运维中的实时分析应用:新时代的智能运维
317 12
|
机器学习/深度学习 分布式计算 算法
【大数据分析&机器学习】分布式机器学习
本文主要介绍分布式机器学习基础知识,并介绍主流的分布式机器学习框架,结合实例介绍一些机器学习算法。
1477 6
|
机器学习/深度学习 数据可视化 数据挖掘
机器学习中空间和时间自相关的分析:从理论基础到实践应用
空间和时间自相关是数据分析中的重要概念,揭示了现象在空间和时间维度上的相互依赖关系。本文探讨了这些概念的理论基础,并通过野火风险预测的实际案例,展示了如何利用随机森林模型捕捉时空依赖性,提高预测准确性。
711 0
机器学习中空间和时间自相关的分析:从理论基础到实践应用
|
数据采集 移动开发 数据可视化
模型预测笔记(一):数据清洗分析及可视化、模型搭建、模型训练和预测代码一体化和对应结果展示(可作为baseline)
这篇文章介绍了数据清洗、分析、可视化、模型搭建、训练和预测的全过程,包括缺失值处理、异常值处理、特征选择、数据归一化等关键步骤,并展示了模型融合技术。
1563 1
模型预测笔记(一):数据清洗分析及可视化、模型搭建、模型训练和预测代码一体化和对应结果展示(可作为baseline)
|
数据挖掘 C语言 C++
R语言是一种强大的统计分析工具,提供了丰富的函数和包用于时间序列分析。
【10月更文挑战第21天】时间序列分析是一种重要的数据分析方法,广泛应用于经济学、金融学、气象学、生态学等领域。R语言是一种强大的统计分析工具,提供了丰富的函数和包用于时间序列分析。本文将介绍使用R语言进行时间序列分析的基本概念、方法和实例,帮助读者掌握R语言在时间序列分析中的应用。
325 3