《机器学习与数据科学(基于R的统计学习方法)》——第2章 连接数据-阿里云开发者社区

开发者社区> 异步社区> 正文

《机器学习与数据科学(基于R的统计学习方法)》——第2章 连接数据

简介:
+关注继续查看

本节书摘来异步社区《机器学习与数据科学(基于R的统计学习方法)》一书中的第2章,作者:【美】Daniel D. Gutierrez(古铁雷斯),更多章节内容可以访问云栖社区“异步社区”公众号查看。

第2章 连接数据

机器学习与数据科学(基于R的统计学习方法)

8e804649c986e5cbf811698e55fb6ef56434bccc

数据科学和它的使能技术机器学习一样,都是关于数据的,即使用海量数据训练算法,对未来事件作出预测;也会对存储的数据进行筛查,发现对商业有战略价值的模式。所以很自然地,机器学习过程中一个重要的部分就是从与待解决的问题相关的分散资源中访问数据内容。很多机器学习和数据分析讨论的前提是你已经有干净的数据,可以直接把它们应用在探索性数据分析工具中,然后选择一个合适的机器学习模型。遗憾的是,这种情况很少发生,更多的时候,你需要定位数据,确定它使用了哪种格式,找到一个有连接数据功能的R包,最后,连接数据并把它读入R数据框(data frame)中——这就是本章的全部主题。这一过程为下一个重要的步骤(数据处理)打下了基础,而后者是本书第3章的主题。

让我们后退一步,为“数据”下一个定义:

数据是属于同一群体的定性或定量的变量的值;是你感兴趣的一组对象的集合,其中的一个变量是对一项的特征的度量。

群体的例子是一种产品的销售数据、广告效果数据和制造过程数据。定性的变量的例子是销售价格、某个广告的点击数和一小时内一种产品的产量。在机器学习项目中,连接数据阶段的目标是定位并获取能为问题域提供帮助的数据源。

数据连接在机器学习项目中的重要性不容小觑。在和其他组织一起从事机器学习项目时,我学到的最重要的知识就是,人们天生愿意把数据存储在多个位置,并以多种格式存储,而这些数据都可以用于机器学习。从某种意义上来说,缺乏合适的数据方法决定了我们需要具备从各种数据源中灵活获取数据的能力。无论你在初创公司、大型企业还是科研机构工作,你都需要掌握多种连接数据集的方法。

在可用数据没这么多且我们从数据中学习的能力没有这么强时,这些都不是问题。所谓的“大数据”产业,就是以有效的方式利用不同来源的数据。数据源的种类和深度在不断提升,这个方面一个很好的例子是,非结构化社会媒体的数据使用量在不断增加。利用这些数据可以得到人气和信誉值,并结合交易数据集来达到空前的预测能力。

本章的目标是为你提供一个有用的连接数据的工具包,以便你在后续的机器学习项目中重复使用。在这里学到的连接数据的步骤,将成为你构建数据管道的第一步,数据管道将在第3章讨论。当一名数据科学家遇到一类全新的数据源时,他必须研究引入机制(和这里展示的相似),并把数据加入到本章提供的工具中。逐渐地,你将拥有一个不断完善的工具包,它的功能不断增强,并能连接常见的数据源。像R这种开源工具的优势是,给一些时间,就有人能开发出新的包来处理种类不断增加的数据源。实际上,这就是Twitter上所发生的事情。

在本章中,我们会学习一些连接各种类型的数据内容并将其引入到R环境中作为学习算法输入源的方法。这一步代表了机器学习方程的第一步。以下是本章的主题列表:

管理你的R数据工作环境;
数据集的种类和来源;
从网络上下载数据集;
读取数据文件;
抓取网页中的数据;
使用SQL连接数据;
R中的SQL等价表述;
读取Twitter数据;
读取谷歌分析数据;
写数据。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
一文解析统计学在机器学习中的重要性
本文介绍为什么统计对于通用应用和机器学习如此重要,并大致了解各种可用的方法。
1127 0
StarSpace是用于高效学习实体向量的通用神经模型
StarSpace是用于高效学习实体向量的通用神经模型,用于解决各种各样的问题: 学习单词,句子或文档级嵌入。 文本分类或任何其他标签任务。
1691 0
《构建实时机器学习系统》一1.7 案例:Netflix在机器学习竞赛中学到的经验
本节书摘来自华章出版社《构建实时机器学习系统》一 书中的第1章,第1.7节,作者:彭河森 汪涵,更多章节内容可以访问云栖社区“华章计算机”公众号查看。
1471 0
SLS机器学习最佳实战:时序预测
通过分析序列进行合理预测,做到提前掌握未来的发展趋势,为业务决策提供依据,这也是决策科学化的前提。 时间序列就是按时间顺序排列的一组数据序列。时间序列分析就是发现这组数据的变动规律并用于预测的统计技术。
4310 0
Spark学习之数据读取与保存(4)
Spark学习之数据读取与保存(4) 1. 文件格式 Spark对很多种文件格式的读取和保存方式都很简单。 如文本文件的非结构化的文件,如JSON的半结构化文件,如SequenceFile结构化文件。通过扩展名进行处理。 2. 读取/保存文本文件 Python中读取一个文本文件 input = sc.textfile("file:///hom
1302 0
《构建实时机器学习系统》一1.8 实时机器学习模型的生存期
本节书摘来自华章出版社《构建实时机器学习系统》一 书中的第1章,第1.8节,作者:彭河森 汪涵,更多章节内容可以访问云栖社区“华章计算机”公众号查看。
1815 0
Java学习--Ajax与数据库连接池
Java学习--Ajax与数据库连接池 概述 数据库连接池 Ajax简介 JavaScript实现Ajax jQuery实现Ajax 一:数据库连接池 数据库连接是一种关键的有限的昂贵的资源,对数据库连接的管理能显著影响到整个应用程序的性能。
1558 0
+关注
异步社区
异步社区(www.epubit.com)是人民邮电出版社旗下IT专业图书旗舰社区,也是国内领先的IT专业图书社区,致力于优质学习内容的出版和分享,实现了纸书电子书的同步上架,于2015年8月上线运营。公众号【异步图书】,每日赠送异步新书。
11939
文章
0
问答
文章排行榜
最热
最新
相关电子书
更多
文娱运维技术
立即下载
《SaaS模式云原生数据仓库应用场景实践》
立即下载
《看见新力量:二》电子书
立即下载