《数据科学:R语言实现》——2.1 引言

简介:

本节书摘来自华章出版社《数据科学:R语言实现》一 书中的第2章,第2.1节,作者:R for Data Science Cookbook 丘祐玮(David Chiu),更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.1 引言

在使用数据回答关键业务问题之前,最重要的事情是准备数据。数据通常存在文件中,使用Excel或者文本编辑器可以轻松地获取。但是数据也可以来自于其他来源,例如数据库、网站和各种文件格式。能够从这些源中引入数据很重要。
数据主要有4种类型。以文本形式存储的数据最简单。由于一些用户需要把数据存在结构化的文件中,因此带有.tab或.csv扩展名的文件可以用来存放一定列的数据。很多年以来,Excel在数据处理领域占据主导地位,这个软件使用.xls和.xlsx文件格式。掌握读取和操作数据库中的数据是另一项重要的技能。然而,大多数数据并不是存在数据库中的,我们也必须知道如何使用网络爬取技术从互联网上获取数据。作为本章的一部分,我们会介绍如何使用rvest程序包,从互联网上爬取数据。
许多有经验的开发人员已经创建了程序包,允许初学者更简便地的获取数据。我们关注于使用这些程序包执行数据抽取、转换和加载。在本章中,我们首先学习如何使用R程序包读取文本格式的数据,并逐行扫描文件。然后我们会讨论从数据库和Excel中读取结构化数据。最后,我们会学习如何使用R网络爬取工具,从互联网和社交网络上爬取数据。

相关文章
|
Java 程序员 云栖大会
9月20日云栖精选夜读 | 如何轻松搞定数据科学面试:Python&R语言篇
对于数据科学家来说,工作的一大部分都需要在交互式编程环境中对数据进行处理、分析和可视化。 在过去几年,R语言和Python成了进行数据科学中最炙手可热的两种语言。这两种语言各有优缺点,掌握这两种语言大有益处,但是针对面试者而言,最好的方式是学习其中一种并熟练掌握。
3087 0
|
数据挖掘 数据库 Python
【R数据科学读书笔记】R语言的数据结构原来可以这样理解
R语言的数据结构原来可以这样理解 这是R数据科学的读书笔记之一,《R数据科学》是一本教你如何用R语言进行数据分析的书。即便我使用R语言快2年多了,但是读这本书还是受益颇多。
1029 0
|
自然语言处理 数据挖掘 Unix
【R数据科学读书笔记】R语言中的管道操作
R语言中的管道操作 这是R数据科学的读书笔记之一,《R数据科学》是一本教你如何用R语言进行数据分析的书。即便我使用R语言快2年多了,但是读这本书还是受益颇多。
1185 0
|
机器学习/深度学习 Python
Python赶超R语言,成为数据科学、机器学习平台中最热门的语言?
近日,kdnuggets做了一个关于数据科学、机器学习语言使用情况的问卷调查,他们分析了954个回答,得出结论——Python已经打败R语言,成为分析、数据科学和机器学习平台中使用频率最高的语言。
1179 0
|
机器学习/深度学习 大数据 物联网