《R语言机器学习:实用案例分析》——1.7节机器学习基础

简介:

本节书摘来自华章社区《R语言机器学习:实用案例分析》一书中的第1章,第1.7节机器学习基础,作者[印度] 拉格哈夫·巴利(Raghav Bali)迪潘简·撒卡尔(Dipanjan Sarkar),更多章节内容可以访问云栖社区“华章社区”公众号查看

1.7 机器学习基础
既然你已经回顾了关于R的内容,我们将讨论机器学习的基础:什么是机器学习,今天如何使用机器学习,以及机器学习中的主要领域。本节将对机器学习进行概述,为你进入下一章机器学习的深入研究做铺垫。
1.7.1 机器学习——真正的含义是什么
由于机器学习是一个囊括和借鉴了计算机科学中多个领域的概念和技巧的一门学科,所以它还没有一个明确的教科书定义。在大学中,机器学习也作为一个学术课程进行教授。随着机器学习和数据科学在网上的教育视频、课程和培训形式被大众广泛接受,该学科在最近有了显著的发展。机器学习是计算机科学、统计学和数学等领域的交叉学科,它使用人工智能、模式检测、优化和学习理论的概念来开发算法和技术,这些算法和技术可以从数据中学习并对数据做出预测而不需要显式地程序设计。
这里的学习指的是基于我们提供的数据和算法使得计算机或机器变得智能的能力,这样它们就可以开始从提供的数据中检测模式和获取洞察力。这种学习确保不需要每次对机器进行显式编程就可以对提供给它们的数据中的模式进行检测。给机器提供初始数据或观测值,机器学习算法在数据上运行以便生成某些输出结果,这些结果可以是预测值、假设值甚至一些数值结果。根据这些输出结果,有一个机器学习算法的反馈机制来提高我们的结果。这样的完整系统构成了一个机器学习模型,可以直接在全新的数据或观测值上应用该模型来获取结果,而不需要根据这些数据编写不同的算法。
1.7.2 机器学习——如何应用于现实世界
你或许想知道究竟如何将算法或代码应用到现实世界中的问题。它们事实上可以应用于不同行业中的许多应用情况中。有些例子如下所示:
零售:机器学习在零售和电子商务中广泛运用,每一家商户都想比他的竞争对手更加出色。
价格分析:机器学习算法可以用于比较不同商户之间的商品价格,这样店家可以以最具竞争力的价格出售商品。
市场购物篮分析:市场购物篮分析可以用于分析客户购买趋势和推荐购买的产品,我们将在第3章进行介绍。
推荐引擎:推荐引擎可以用于分析客户购买的产品、评价以及满意度以便给不同的用户推荐产品。我们将在第4章建立我们自己的推荐系统。
广告:广告业在很大程度上依赖于机器学习算法以便向客户推广和展示正确的广告从而吸引尽可能多的客户。
网络分析:分析网站流量。
客户流失分析:预测客户流失率。
广告点击通过预测:用来预测一个广告对客户多么有效才能使他们点击它来购买相关的产品。
卫生保健:机器学习算法在卫生保健行业广泛使用,以便为病人提供更有效的治疗。
疾病检测和预测:基于患者医疗史来检测和预测疾病的出现概率。
学习复杂的结构(例如人类大脑和DNA)来了解人类身体机能,以提供更有效的治疗。
检测和过滤垃圾邮件和短信。
预测选举结果。
欺诈检测和预测。我们将在第5章和第6章尝试对一个最重要的欺诈检测问题进行讨论。
在消息应用程序中进行文本预测。
自动驾驶汽车、飞机和其他交通工具。
天气、交通和犯罪活动的预报和预测。
第8章将讲述情绪和情感分析。
在以上的例子中,我们只是简单地介绍了机器学习在实际问题中的应用,现在我相信你对机器学习在不同领域的广泛应用已经有了好感。
1.7.3 机器学习算法的类型
正如我们之前提到的,为了进行机器学习,你需要机器学习算法。机器学习算法是一类特殊的算法,它们用来处理数据并从数据中获取洞察力。通过数据和算法的结合来创建一个模型,然后将得到的模型用于处理新的数据并从中获得可以用于行动的洞察力。
每个机器学习算法都依赖于它们可以处理的数据类型和我们尝试解决的问题类型。你可以尝试学习几个算法,然后将它们应用于你面对的每一个问题。记住,没有一个算法是可以解决所有问题的万能算法。机器学习算法的主要输入是包含各种特征的数据,每个特征用来描述数据集的属性,例如当处理与人相关的数据时,这些属性可以是身高、体重等。机器学习算法可以分为两种:有监督学习算法和无监督学习算法。
1.7.3.1 有监督机器学习算法
有监督学习算法是机器学习算法家族中的一个子集,主要应用在预测模型中。预测模型基本上是从一个机器学习算法和训练数据的特征或属性构建的模型,这样我们可以使用从输入数据得到的其他值来预测一个值。有监督学习算法尝试对目标预测输出和输入特征之间的关系和依赖性建立模型,这样我们可以根据从以前数据集学习到的那些关系来预测新输入数据的输出值。有监督学习算法的主要类型包括:
分类算法:这些算法从具有特征和类别标签的训练数据创建预测模型。这些预测模型依次把从训练数据学习到的特征应用到新的、以前未知的数据来预测这些新数据的类别标签。这些输出类别是离散的。分类算法的类型包括决策树、随机森林、支持向量机等。我们将在第2章、第6章和第8章中使用这些模型。
回归算法:这些算法用来根据从数据中获得某些输入特征来预测输出值。为此,回归算法基于训练集的特征和输出值来建立模型,并用该模型对新数据进行预测。这种情况下,输出值是连续的而不是离散的。回归算法的类型包括线性回归、多元回归、回归树和LASSO回归等。我们将在第2章介绍其中的一些算法。
1.7.3.2 无监督学习算法
无监督学习算法是机器学习算法家族中的一个子集,主要用在模式识别和描述建模中。与有监督学习过程类似,描述模型由无监督机器学习算法和输入数据的特征构成。然而,这里没有算法尝试建立关系所基于的输出类别或标签。这些算法尝试应用技术从输入数据中挖掘规律、检测模式以及汇总和分组数据点,这有助于获得有意义的洞察力,并向用户更好地描述数据。因为我们没有特定的关系映射,并且我们只是尝试从我们分析的数据中获得有用的洞察力和描述,所以这里没有训练和测试数据的具体概念。无监督学习算法的主要类型包括:
聚类算法:这类算法的主要目的是在不应用其他外部信息的情况下,只根据输入数据的特征,将输入数据点聚集或分组为不同的类别或种类。与分类算法不同,聚类算法的输出标签在之前是未知的。有许多不同的方法来建立聚类模型,包括应用均值、中心点、层次等。一些常用的聚类算法包括k均值、k中心点、层次聚类等。我们将在第2章和第7章中研究这些算法。
关联规则学习算法:这些算法用于挖掘和提取数据集中的规则和模式。这些规则解释了不同变量和属性之间的关系,同时描绘了数据中出现的频繁项集和模式。这些规则帮助企业或组织从它们巨大的数据存储库中发现有用的信息。常见的算法包括Apriori和FP Growth。我们将在第2章和第3章来使用这些算法。
1.7.3.3 R中常见的机器学习添加包
在简单了解了机器学习的基本内容和算法类型后,你一定对如何使用R来应用这些算法解决实际问题有了一些好奇心。在R中有大量专门用来解决机器学习问题的添加包。这些添加包由优化的且可用于解决问题的算法组成。我们将列举一些R中常用的机器学习添加包,这样你可以了解今后可能需要的工具,并且在之后章节的学习时也会对它们更加熟悉。基于用途和功能,下面这些R中的添加包在解决机器学习问题中十分常用:
caret:该添加包(分类和回归训练的简写)包括建立预测模型的许多机器学习算法。
randomForest:该添加包实现了用于分类和回归的随机森林算法。
rpart:该添加包侧重于递归划分和决策树。
glmnet:该添加包侧重于LASSO和elastic-net正则化回归模型。
e1071:该添加包处理傅里叶变换、聚类、支持向量机和许多其他有监督算法和无监督算法。
party:该添加包处理递归划分。
arules:该添加包用于关联规则学习算法。
recommenderlab:这是一个建立推荐引擎的添加包。
nnet:该添加包应用神经网络来建立预测模型。
h2o:这是最近数据科学中最流行的添加包,它提供包括梯度自助法(gradient boosting)和深度学习等快速且稳定的算法。
除了以上这些添加包外,在R中还有很多与机器学习相关的添加包。问题在于如何根据手中的数据和问题,选择正确的算法和模型。

相关文章
|
2天前
|
机器学习/深度学习 算法 数据挖掘
PYTHON银行机器学习:回归、随机森林、KNN近邻、决策树、高斯朴素贝叶斯、支持向量机SVM分析营销活动数据|数据分享-2
PYTHON银行机器学习:回归、随机森林、KNN近邻、决策树、高斯朴素贝叶斯、支持向量机SVM分析营销活动数据|数据分享
24 1
|
2天前
|
数据可视化
【视频】R语言生存分析原理与晚期肺癌患者分析案例|数据分享-4
【视频】R语言生存分析原理与晚期肺癌患者分析案例|数据分享
33 1
|
2天前
|
vr&ar
R语言单变量和多变量(多元)动态条件相关系数DCC-GARCH模型分析股票收益率金融时间序列数据波动率-1
R语言单变量和多变量(多元)动态条件相关系数DCC-GARCH模型分析股票收益率金融时间序列数据波动率
25 0
|
13小时前
|
移动开发
R语言线性回归模型拟合诊断异常值分析家庭燃气消耗量和卡路里实例带自测题
R语言线性回归模型拟合诊断异常值分析家庭燃气消耗量和卡路里实例带自测题
14 5
|
14小时前
|
存储 算法 数据可视化
R语言用隐马尔可夫Profile HMM模型进行生物序列分析和模拟可视化
R语言用隐马尔可夫Profile HMM模型进行生物序列分析和模拟可视化
18 11
|
14小时前
|
数据可视化 算法
R语言coda贝叶斯MCMC Metropolis-Hastings采样链分析和收敛诊断可视化
R语言coda贝叶斯MCMC Metropolis-Hastings采样链分析和收敛诊断可视化
|
1天前
|
机器学习/深度学习 数据挖掘 数据建模
R语言用lme4多层次(混合效应)广义线性模型(GLM),逻辑回归分析教育留级调查数据(下)
R语言用lme4多层次(混合效应)广义线性模型(GLM),逻辑回归分析教育留级调查数据
37 9
|
1天前
|
机器学习/深度学习 数据可视化
数据分享|R语言逻辑回归Logisitc逐步回归训练与验证样本估计分析心脏病数据参数可视化
数据分享|R语言逻辑回归Logisitc逐步回归训练与验证样本估计分析心脏病数据参数可视化
33 18
|
1天前
|
算法 vr&ar Python
R语言隐马尔可夫模型HMM连续序列重要性重抽样CSIR估计随机波动率模型SV分析股票收益率时间序列
R语言隐马尔可夫模型HMM连续序列重要性重抽样CSIR估计随机波动率模型SV分析股票收益率时间序列
|
1天前
|
数据可视化 安全 数据挖掘
数据分享|R语言用主成分分析(PCA)PCR回归进行预测汽车购买信息可视化
数据分享|R语言用主成分分析(PCA)PCR回归进行预测汽车购买信息可视化

热门文章

最新文章