《机器学习与R语言(原书第2版)》一 第1章 机器学习简介

简介: 如果科幻故事是可信的,那么人工智能的发明将会不可避免地导致机器和其制造者之间的末日战争。在计算机使用的早期,计算机被教会玩井字棋和国际象棋这样一些简单的游戏。后来,机器被用来控制交通信号灯和通信,随后用来控制军用无人机和导弹。

本节书摘来自华章出版社《机器学习与R语言(原书第2版)》一书中的第1章,第1.1节,美] 布雷特·兰茨(Brett Lantz) 著,李洪成 许金炜 李舰 译更多章节内容可以访问云栖社区“华章计算机”公众号查看。

第1章

机器学习简介

如果科幻故事是可信的,那么人工智能的发明将会不可避免地导致机器和其制造者之间的末日战争。在计算机使用的早期,计算机被教会玩井字棋和国际象棋这样一些简单的游戏。后来,机器被用来控制交通信号灯和通信,随后用来控制军用无人机和导弹。一旦计算机有感知力并且知道如何教会自己,机器的发展将产生不祥的改变:计算机不再需要人类程序员了,人类那时也就被“删除”(deleted)了。
幸运的是,在写本书的时候,机器还是需要用户来进行输入的。
尽管你对机器学习的印象可能如那些大众媒体所描述的那样丰富多彩,但是现在的算法太注重特定的应用,因此不会呈现出具有自我意识那样的危险。现在机器学习的目标不是创造人工大脑,而是帮助我们使世界上的海量数据存储具有意义。
把这些误解放在一边,在本章结束时,你会对机器学习有更加清晰的理解。本章将介绍一些基本概念,通过它们来定义和区分常用的机器学习方法。
本章中,你将学到下列知识:
机器学习的起源及其实际应用。
计算机如何将数据转换为知识和行动。
如何为数据匹配机器学习算法。
机器学习领域提供了把数据转换成可行动的知识的算法集合。继续阅读可以了解使用R将机器学习应用到现实世界中的问题是多么容易。

1.1 机器学习的起源

自出生以来,我们就和各种数据打交道。我们身体的感官—眼睛、耳朵、鼻子、舌头以及神经一直被数据包围着,大脑把它们转化成视觉、听觉、嗅觉、味觉和感知。通过语言的交流,我们得以和他人分享这些感受。
从书面语言出现,人们的观测就被记录下来。猎人监视动物群体的移动,早期的宇航员记录行星和恒星的模式,城市记录税收、出生和死亡情况。现在,由于不断发展的计算机数据库的应用,这些观察的过程逐步自动化,记录也变得系统化。
电子传感器的发明使得可以记录的数据的数量和资源呈爆炸式增长。专用的传感器可以观测、可以听声音、可以闻味道,也可以感受环境。这些传感器处理数据的方式和人类完全不同。与人类的有限且主观的注意力不同,电子传感器从不休息并且从来不会让它的判断扭曲它所感知到的。
尽管传感器不会被主观成分模糊判断,但是它们也不一定给出现实情况的单一且确定性的描述。由于硬件的限制,有些传感器有固有测量误差,另一些受观测范围的限制。与拍摄彩色照片的相机相比,拍摄黑白照片的相机可能会给出与其拍摄物完全不同的写照。类似地,显微镜对事实的描绘和望远镜的描绘也是截然不同的。
通过数据库和传感器,我们生活的方方面面都被记录下来。政府、企业和个人都在记录并报告他们生活中的信息。气象传感器记录温度和气压,监视探头监视着人行道和地铁站,各种电子行为如交易、通话、建立友好关系等都会被监控。
根据如此庞大的数据量,一些人声称我们进入了大数据的时代,这可能有一点哗众取宠。人类总是身处大量的数据之中。使当今这个时代变得与众不同的是我们有大量的记录数据,它们大部分可以直接用计算机来访问。仅仅一次网络搜索,经过手指的点击,大量有趣的数据就变得更容易获取。只要有理解数据的系统方法,这些大量信息就会成为有潜力的决策信息。
机器学习的研究领域是发明计算机算法,把数据转化为智能行动。这个领域是在现有数据、统计方法以及计算能力迅速并且同步发展的环境下发展起来的。数据量的增加使得计算能力增强成为必需条件,而计算能力的增强又反过来促进了分析大数据的统计方法的发展。这就创造了一个闭环式的发展,它使得更多更加有趣的数据得以收集。


b4629c86002903d375608b491f68ac39172aebb3



机器学习的一个紧密相关的学科是数据挖掘,它涉及从大型的数据库中产生新的洞察。如其名称所示,数据挖掘是系统地寻找可以用于行动的有价值的信息。尽管对于这两个领域究竟有多少重叠存在一些争议,但是一个可能的差别是机器学习侧重于教计算机如何利用数据来解决问题,而数据挖掘则侧重于教计算机识别模式,然后人类可以用该模式来解决问题。
几乎所有的数据挖掘都涉及机器学习,而并不是所有的机器学习都涉及数据挖掘。例如,你可能应用机器学习来挖掘汽车交通数据中与事故率有关的模式;另一方面,如果是计算机自己学习如何驾驶汽车,那么就是没有数据挖掘的纯粹机器学习。
“挖掘数据”有时用作一个贬义词,用来描述挑选最合适的数据来支持某个理论的欺骗性行为。
相关文章
|
2月前
|
机器学习/深度学习 数据采集 算法
R语言中的机器学习库:caret与mlr的深度解析
【9月更文挑战第2天】Caret和mlr是R语言中两个非常重要的机器学习库,它们在数据预处理、模型构建、调优和评估等方面提供了丰富的功能。Caret以其易用性和集成性著称,适合初学者和快速原型开发;而mlr则以其全面性和可扩展性见长,适合处理复杂的机器学习项目。在实际应用中,用户可以根据具体需求和项目特点选择合适的库进行开发。无论是学术研究、商业智能还是教育场景,这两个库都能为数据科学家和机器学习爱好者提供强大的支持。
|
4月前
|
机器学习/深度学习 人工智能 算法
没想到!AlphaZero式树搜索也能用来增强大语言模型推理与训练
【7月更文挑战第26天】Xidong Feng等研究人员提出了一项创新方法,通过采用AlphaZero式的树搜索算法来增强大语言模型(LLMs)的推理与训练能力。这项技术,称为TS-LLM(Tree-Search for LLMs),将LLMs的解码过程视为搜索问题,并运用AlphaZero的树搜索来指导这一过程。TS-LLM不仅提升了模型的通用性和适应性,还在多个任务中实现了显著的性能提升。此外,它能在训练阶段指导LLMs学习更优的解码策略。尽管如此,TS-LLM依赖于高质量的预训练LLM,并面临较高的计算成本挑战。[论文](https://arxiv.org/abs/2309.17179)
72 5
|
4天前
|
机器学习/深度学习 数据采集 人工智能
R语言是一种强大的编程语言,广泛应用于统计分析、数据可视化、机器学习等领域
R语言是一种广泛应用于统计分析、数据可视化及机器学习的强大编程语言。本文为初学者提供了一份使用R语言进行机器学习的入门指南,涵盖R语言简介、安装配置、基本操作、常用机器学习库介绍及实例演示,帮助读者快速掌握R语言在机器学习领域的应用。
17 3
|
4天前
|
机器学习/深度学习 并行计算 数据挖掘
R语言是一种强大的统计分析工具,广泛应用于数据分析和机器学习领域
【10月更文挑战第21天】R语言是一种强大的统计分析工具,广泛应用于数据分析和机器学习领域。本文将介绍R语言中的一些高级编程技巧,包括函数式编程、向量化运算、字符串处理、循环和条件语句、异常处理和性能优化等方面,以帮助读者更好地掌握R语言的编程技巧,提高数据分析的效率。
13 2
|
6月前
|
机器学习/深度学习 算法 TensorFlow
机器学习算法简介:从线性回归到深度学习
【5月更文挑战第30天】本文概述了6种基本机器学习算法:线性回归、逻辑回归、决策树、支持向量机、随机森林和深度学习。通过Python示例代码展示了如何使用Scikit-learn、statsmodels、TensorFlow库进行实现。这些算法在不同场景下各有优势,如线性回归处理连续值,逻辑回归用于二分类,决策树适用于规则提取,支持向量机最大化类别间隔,随机森林集成多个决策树提升性能,而深度学习利用神经网络解决复杂模式识别问题。理解并选择合适算法对提升模型效果至关重要。
238 4
|
2月前
|
机器学习/深度学习 算法 前端开发
R语言基础机器学习模型:深入探索决策树与随机森林
【9月更文挑战第2天】决策树和随机森林作为R语言中基础且强大的机器学习模型,各有其独特的优势和适用范围。了解并熟练掌握这两种模型,对于数据科学家和机器学习爱好者来说,无疑是一个重要的里程碑。希望本文能够帮助您更好地理解这两种模型,并在实际项目中灵活应用。
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
【机器学习】机器学习、深度学习、强化学习和迁移学习简介、相互对比、区别与联系。
机器学习、深度学习、强化学习和迁移学习都是人工智能领域的子领域,它们之间有一定的联系和区别。下面分别对这四个概念进行解析,并给出相互对比、区别与联系以及应用场景案例分析。
73 1
|
3月前
|
机器学习/深度学习 人工智能 算法
机器学习简介
机器学习简介
39 3
|
4月前
|
算法 API 数据中心
魔搭社区利用 NVIDIA TensorRT-LLM 加速开源大语言模型推理
魔搭社区于 2022 年 11 月初创建,首次在业界提出了 “模型即服务”( MaaS, Model as a Service)的理念。
|
5月前
|
机器学习/深度学习 PyTorch 算法框架/工具
机器学习框架简介
【6月更文挑战第26天】机器学习框架简介。
44 5

热门文章

最新文章