《数据科学:R语言实现》——3.3 转换数据类型

简介:

本节书摘来自华章计算机《数据科学:R语言实现》一书中的第3章,第3.3节,作者 丘祐玮(David Chiu),更多章节内容可以访问云栖社区“华章计算机”公众号查看。

3.3 转换数据类型

如果我们在数据导入阶段不指定数据类型,R会自动地给导入的数据集分配一个数据类型。但是,如果分配的数据类型和事实不符,我们可能会在后续的数据操作中遇到困难。因此数据类型转换是预处理阶段的基础性任务。

准备工作

完成之前的教程,导入employees.csv和salaries.csv给R进程。你必须给两个数据集指定了列名,以便执行下面的步骤。

实现步骤

执行下列步骤,转换数据类型。

1.首先,使用函数class查看每个属性的数据类型:
image

2.你也可以使用函数str查看所有属性的数据类型:
image

3.然后,你需要把birth_date和hire_date转换为日期格式:
image

4.你也需要把first_name和last_name转换为字符类型:
image

5.你可以再次使用str查看数据集:
image
image

6.而且,你可以把salaries中的from_date和to_date类型转换为日期类型:
image

运行原理

在本教程中,我们展示了如何对数据集中的每个属性进行数据类型转换。在进行转换之前,你必须首先查看每个属性的当前类型。为了确认数据类型,你可以使用函数class进行属性的类别判断。进一步,你可以使用函数str查看所有数据类型。

通过将函数str应用到employees数据框的输出,我们可以看到birth_date和hire_date都是因子类型的。但是,如果想通过birth_date属性计算一个人的年龄,就需要把它转换成日期格式。所以,我们使用函数as.Date把birth_date和hire_date都转换成日期格式。

而且,因子类型限制了属性在取值上的选择,我们并不能自由地给数据集添加记录。由于从数据集中准确地找到相同的姓和名并不容易,我们需要把last_name和first_name转换成字符类型。然后,在下一篇教程中,我们可以继续给数据集employees添加新的记录。最后,我们也应该把salaries数据集中的from_date和to_date转换成日期类型,以便在下一篇教程中进行日期计算。

更多技能

除了使用as函数转换数据类型,你也可以在数据导入阶段指定数据类型。以函数read.csv为例,你可以在colClasses参数中指定数据类型。如果你希望R自动地选择数据类型(即自动把emp_no转换为整型),只需要在colClasses中指明NA:
image

通过指定colClasses参数,emp_no、birth_date、first_name、last_name、gender和hire_date会分别转换成整型、日期类型、字符类型、字符类型、因子类型和日期类型。

相关文章
R语言笔记丨从零学起?环境安装、基础知识、运算法则、数据类型(下)
R语言笔记丨从零学起?环境安装、基础知识、运算法则、数据类型(下)
|
机器学习/深度学习 数据挖掘 Linux
R语言笔记丨从零学起?环境安装、基础知识、运算法则、数据类型(上)
R语言笔记丨从零学起?环境安装、基础知识、运算法则、数据类型
初识R语言之数据类型篇
初识R语言之数据类型篇
130 0
初识R语言之数据类型篇
|
Java 程序员 云栖大会
9月20日云栖精选夜读 | 如何轻松搞定数据科学面试:Python&R语言篇
对于数据科学家来说,工作的一大部分都需要在交互式编程环境中对数据进行处理、分析和可视化。 在过去几年,R语言和Python成了进行数据科学中最炙手可热的两种语言。这两种语言各有优缺点,掌握这两种语言大有益处,但是针对面试者而言,最好的方式是学习其中一种并熟练掌握。
3126 0
|
数据挖掘 数据库 Python
【R数据科学读书笔记】R语言的数据结构原来可以这样理解
R语言的数据结构原来可以这样理解 这是R数据科学的读书笔记之一,《R数据科学》是一本教你如何用R语言进行数据分析的书。即便我使用R语言快2年多了,但是读这本书还是受益颇多。
1084 0
|
自然语言处理 数据挖掘 Unix
【R数据科学读书笔记】R语言中的管道操作
R语言中的管道操作 这是R数据科学的读书笔记之一,《R数据科学》是一本教你如何用R语言进行数据分析的书。即便我使用R语言快2年多了,但是读这本书还是受益颇多。
1221 0
|
机器学习/深度学习 Python
Python赶超R语言,成为数据科学、机器学习平台中最热门的语言?
近日,kdnuggets做了一个关于数据科学、机器学习语言使用情况的问卷调查,他们分析了954个回答,得出结论——Python已经打败R语言,成为分析、数据科学和机器学习平台中使用频率最高的语言。
1239 0
|
机器学习/深度学习 大数据 物联网

热门文章

最新文章