开发者社区> 华章计算机> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

《R语言数据挖掘》----1.9 机器学习

简介:
+关注继续查看

本节书摘来自华章出版社《R语言数据挖掘》一书中的第1章,第1.9节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

1.9 机器学习

应用于机器学习算法的数据集称为训练集,它由一组成对的数据(x, y)构成,称为训练样本。成对的数据解释如下:
x:这是一个值向量,通常称为特征向量。每个值或者特征,要么是分类变量(这些值来自一组离散值,比如{S, M, L}),要么是数值型。

y:这是一个标签,表示x的分类或者回归值。

机器学习过程的目的就是发现一个函数y=f(x),它能最好地预测与每一个x值相关联的y值。原则上y的类型是任意的,但有一些常见的和重要的类型:
y:这是一个实数,机器学习问题称为回归。

y:这是一个布尔值,真或者假,通常分别写为+1和-1。在这种情况下,机器学习问题称为二元分类。

y:这是某些有限集合的成员。这个集合的成员可以认为是类,并且每个成员代表一类。此机器学习问题称为多级分类。

y:这是某些潜在无限集合的成员,例如,x的一个解析树,它被解析为一个句子。

到现在为止,在我们可以更直接地描述挖掘目标的情况下,还没有证明机器学习是成功的。机器学习和数据挖掘是两个不同的主题,尽管它们共享一些算法——特别是目标为提取信息时。在某些情况下,机器学习是有意义的,一个典型的情形就是当我们试图从数据集中寻找某些信息。

1.9.1 机器学习方法

算法的主要类型均列于下方,每个算法由函数f区分。

决策树(decision tree):这种形式的f呈树形,树的每个节点都有一个关于x的函数,用来确定必须搜索哪个子节点或者哪些子节点。

感知器(perceptron):这些是应用于向量x={x1, x2, …, xn}的分量的阈值函数。对每个i=1, 2, …, n,权重wi与第i个分量相关联,且有一个阈值wixi≥θ。如果阈值满足条件,输出为+1,否则为-1。

神经网络(neural net):这些是有感知器的非循环网络,某些感知器的输出用作其他感知器的输入。

基于实例的学习(instance-based learning):此方法使用整个训练集来表
示函数f。

支持向量机(support-vector machine):该类的结果是一个分类器,它对未知数据更准确。分类的目标是寻找最优超平面,通过最大化两个类的最近点之间的间隔将它们分隔。

1.9.2 机器学习架构

这里,机器学习的数据方面指的是处理数据的方式以及使用数据构建模型的方式。

训练和测试(training and testing):假定所有数据都适用于训练,分离出一小部分可用的数据作为测试集,使用余下的数据建立一个合适的模型或者分类器。

批处理与在线学习(batch versus online learning):对于批处理方式,在其进程的开始,整个训练集都是可得到的;对于在线学习,其训练集以数据流的形式获得,且对它进行处理后不能被再次访问。

特征选择(feature selection):这有助于找出那些用作学习算法输入的特征。

创建训练集(creating a training set):通过手动创建标签信息,从而把数据变为训练集。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
数据挖掘与机器学习关系与区别
一、概念定义 机器学习:广泛的定义为 “利用经验来改善计算机系统的自身性能。”,事实上,由于“经验”在计算机系统中主要是以数据的形式存在的,因此机器学习需要设法对数据进行分析,这就使得它逐渐成为智能数据分析技术的创新源之一,并且为此而受到越来越多的关注。
1157 0
数据科学、机器学习和AI的区别
本文详细讲解了数据科学、机器学习和AI的相同点与区别,并用实例进行说明。
6829 0
Python赶超R语言,成为数据科学、机器学习平台中最热门的语言?
近日,kdnuggets做了一个关于数据科学、机器学习语言使用情况的问卷调查,他们分析了954个回答,得出结论——Python已经打败R语言,成为分析、数据科学和机器学习平台中使用频率最高的语言。
933 0
《R语言数据挖掘》——导读
Preface 前  言 世界各地的统计学家和分析师正面临着处理许多复杂统计分析项目的迫切问题。由于人们对数据分析领域的兴趣日益增加,所以R语言提供了一个免费且开源的环境,非常适合学习和有效地利用现实世界中的预测建模方案。
2103 0
《R语言机器学习:实用案例分析》——导读
本节书摘来自华章社区《R语言机器学习:实用案例分析》一书中的目录,作者[印度] 拉格哈夫·巴利(Raghav Bali)迪潘简·撒卡尔(Dipanjan Sarkar),更多章节内容可以访问云栖社区“华章社区”公众号查看
1356 0
10057
文章
0
问答
来源圈子
更多
+ 订阅
文章排行榜
最热
最新
相关电子书
更多
低代码开发师(初级)实战教程
立即下载
阿里巴巴DevOps 最佳实践手册
立即下载
冬季实战营第三期:MySQL数据库进阶实战
立即下载