《R语言数据挖掘》----1.9 机器学习

简介:

本节书摘来自华章出版社《R语言数据挖掘》一书中的第1章,第1.9节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

1.9 机器学习

应用于机器学习算法的数据集称为训练集,它由一组成对的数据(x, y)构成,称为训练样本。成对的数据解释如下:
x:这是一个值向量,通常称为特征向量。每个值或者特征,要么是分类变量(这些值来自一组离散值,比如{S, M, L}),要么是数值型。

y:这是一个标签,表示x的分类或者回归值。

机器学习过程的目的就是发现一个函数y=f(x),它能最好地预测与每一个x值相关联的y值。原则上y的类型是任意的,但有一些常见的和重要的类型:
y:这是一个实数,机器学习问题称为回归。

y:这是一个布尔值,真或者假,通常分别写为+1和-1。在这种情况下,机器学习问题称为二元分类。

y:这是某些有限集合的成员。这个集合的成员可以认为是类,并且每个成员代表一类。此机器学习问题称为多级分类。

y:这是某些潜在无限集合的成员,例如,x的一个解析树,它被解析为一个句子。

到现在为止,在我们可以更直接地描述挖掘目标的情况下,还没有证明机器学习是成功的。机器学习和数据挖掘是两个不同的主题,尽管它们共享一些算法——特别是目标为提取信息时。在某些情况下,机器学习是有意义的,一个典型的情形就是当我们试图从数据集中寻找某些信息。

1.9.1 机器学习方法

算法的主要类型均列于下方,每个算法由函数f区分。

决策树(decision tree):这种形式的f呈树形,树的每个节点都有一个关于x的函数,用来确定必须搜索哪个子节点或者哪些子节点。

感知器(perceptron):这些是应用于向量x={x1, x2, …, xn}的分量的阈值函数。对每个i=1, 2, …, n,权重wi与第i个分量相关联,且有一个阈值wixi≥θ。如果阈值满足条件,输出为+1,否则为-1。

神经网络(neural net):这些是有感知器的非循环网络,某些感知器的输出用作其他感知器的输入。

基于实例的学习(instance-based learning):此方法使用整个训练集来表
示函数f。

支持向量机(support-vector machine):该类的结果是一个分类器,它对未知数据更准确。分类的目标是寻找最优超平面,通过最大化两个类的最近点之间的间隔将它们分隔。

1.9.2 机器学习架构

这里,机器学习的数据方面指的是处理数据的方式以及使用数据构建模型的方式。

训练和测试(training and testing):假定所有数据都适用于训练,分离出一小部分可用的数据作为测试集,使用余下的数据建立一个合适的模型或者分类器。

批处理与在线学习(batch versus online learning):对于批处理方式,在其进程的开始,整个训练集都是可得到的;对于在线学习,其训练集以数据流的形式获得,且对它进行处理后不能被再次访问。

特征选择(feature selection):这有助于找出那些用作学习算法输入的特征。

创建训练集(creating a training set):通过手动创建标签信息,从而把数据变为训练集。

相关文章
|
机器学习/深度学习 数据采集 算法
R语言中的机器学习库:caret与mlr的深度解析
【9月更文挑战第2天】Caret和mlr是R语言中两个非常重要的机器学习库,它们在数据预处理、模型构建、调优和评估等方面提供了丰富的功能。Caret以其易用性和集成性著称,适合初学者和快速原型开发;而mlr则以其全面性和可扩展性见长,适合处理复杂的机器学习项目。在实际应用中,用户可以根据具体需求和项目特点选择合适的库进行开发。无论是学术研究、商业智能还是教育场景,这两个库都能为数据科学家和机器学习爱好者提供强大的支持。
|
机器学习/深度学习 自然语言处理 算法
【数据挖掘】金山办公2020校招大数据和机器学习算法笔试题
金山办公2020校招大数据和机器学习算法笔试题的解析,涵盖了编程、数据结构、正则表达式、机器学习等多个领域的题目和答案。
276 10
|
机器学习/深度学习 人工智能 搜索推荐
【数据挖掘】2022年深信服科技机器学习工程师笔试
总结了深信服科技机器学习工程师笔试中的几道题目及其解答,涉及数据结构、机器学习评估指标和过拟合缓解方法等内容。
194 1
|
机器学习/深度学习 数据采集 人工智能
R语言是一种强大的编程语言,广泛应用于统计分析、数据可视化、机器学习等领域
R语言是一种广泛应用于统计分析、数据可视化及机器学习的强大编程语言。本文为初学者提供了一份使用R语言进行机器学习的入门指南,涵盖R语言简介、安装配置、基本操作、常用机器学习库介绍及实例演示,帮助读者快速掌握R语言在机器学习领域的应用。
702 3
|
机器学习/深度学习 并行计算 数据挖掘
R语言是一种强大的统计分析工具,广泛应用于数据分析和机器学习领域
【10月更文挑战第21天】R语言是一种强大的统计分析工具,广泛应用于数据分析和机器学习领域。本文将介绍R语言中的一些高级编程技巧,包括函数式编程、向量化运算、字符串处理、循环和条件语句、异常处理和性能优化等方面,以帮助读者更好地掌握R语言的编程技巧,提高数据分析的效率。
311 2
|
机器学习/深度学习 存储 人工智能
【数据挖掘】2022年2023届秋招知能科技公司机器学习算法工程师 笔试题
本文是关于2022-2023年知能科技公司机器学习算法工程师岗位的秋招笔试题,包括简答题和编程题,简答题涉及神经网络防止过拟合的方法、ReLU激活函数的使用原因以及条件概率计算,编程题包括路径行走时间计算和两车相向而行相遇时间问题。
222 2
【数据挖掘】2022年2023届秋招知能科技公司机器学习算法工程师 笔试题
|
机器学习/深度学习 自然语言处理 算法
【数据挖掘】百度机器学习-数据挖掘-自然语言处理工程师 历史笔试详解
文章汇总并解析了百度机器学习/数据挖掘工程师/自然语言处理工程师历史笔试题目,覆盖了多分类任务激活函数、TCP首部确认号字段、GMM-HMM模型、朴素贝叶斯模型、SGD随机梯度下降法、随机森林算法、强连通图、红黑树和完全二叉树的高度、最长公共前后缀、冒泡排序比较次数、C4.5属性划分标准、语言模型类型、分词算法、贝叶斯决策理论、样本信息熵、数据降维方法、分箱方法、物理地址计算、分时系统响应时间分析、小顶堆删除调整等多个知识点。
202 1
【数据挖掘】百度机器学习-数据挖掘-自然语言处理工程师 历史笔试详解
|
机器学习/深度学习 数据采集 算法
数据挖掘和机器学习算法
数据挖掘和机器学习算法
|
机器学习/深度学习 算法 前端开发
R语言基础机器学习模型:深入探索决策树与随机森林
【9月更文挑战第2天】决策树和随机森林作为R语言中基础且强大的机器学习模型,各有其独特的优势和适用范围。了解并熟练掌握这两种模型,对于数据科学家和机器学习爱好者来说,无疑是一个重要的里程碑。希望本文能够帮助您更好地理解这两种模型,并在实际项目中灵活应用。
|
机器学习/深度学习 人工智能 算法
【数据挖掘】2022年2023届秋招奇虎360机器学习算法工程师 笔试题
本文提供了奇虎360公司2022年秋招机器学习算法工程师岗位的笔试题内容,包括选择题和编程题,涉及概率统计、数据结构、机器学习、计算机组成原理等多个领域。
256 5