《数据科学:R语言实现》——3.3 转换数据类型

简介:

本节书摘来自华章计算机《数据科学:R语言实现》一书中的第3章,第3.3节,作者 丘祐玮(David Chiu),更多章节内容可以访问云栖社区“华章计算机”公众号查看。

3.3 转换数据类型

如果我们在数据导入阶段不指定数据类型,R会自动地给导入的数据集分配一个数据类型。但是,如果分配的数据类型和事实不符,我们可能会在后续的数据操作中遇到困难。因此数据类型转换是预处理阶段的基础性任务。

准备工作

完成之前的教程,导入employees.csv和salaries.csv给R进程。你必须给两个数据集指定了列名,以便执行下面的步骤。

实现步骤

执行下列步骤,转换数据类型。

1.首先,使用函数class查看每个属性的数据类型:
image

2.你也可以使用函数str查看所有属性的数据类型:
image

3.然后,你需要把birth_date和hire_date转换为日期格式:
image

4.你也需要把first_name和last_name转换为字符类型:
image

5.你可以再次使用str查看数据集:
image
image

6.而且,你可以把salaries中的from_date和to_date类型转换为日期类型:
image

运行原理

在本教程中,我们展示了如何对数据集中的每个属性进行数据类型转换。在进行转换之前,你必须首先查看每个属性的当前类型。为了确认数据类型,你可以使用函数class进行属性的类别判断。进一步,你可以使用函数str查看所有数据类型。

通过将函数str应用到employees数据框的输出,我们可以看到birth_date和hire_date都是因子类型的。但是,如果想通过birth_date属性计算一个人的年龄,就需要把它转换成日期格式。所以,我们使用函数as.Date把birth_date和hire_date都转换成日期格式。

而且,因子类型限制了属性在取值上的选择,我们并不能自由地给数据集添加记录。由于从数据集中准确地找到相同的姓和名并不容易,我们需要把last_name和first_name转换成字符类型。然后,在下一篇教程中,我们可以继续给数据集employees添加新的记录。最后,我们也应该把salaries数据集中的from_date和to_date转换成日期类型,以便在下一篇教程中进行日期计算。

更多技能

除了使用as函数转换数据类型,你也可以在数据导入阶段指定数据类型。以函数read.csv为例,你可以在colClasses参数中指定数据类型。如果你希望R自动地选择数据类型(即自动把emp_no转换为整型),只需要在colClasses中指明NA:
image

通过指定colClasses参数,emp_no、birth_date、first_name、last_name、gender和hire_date会分别转换成整型、日期类型、字符类型、字符类型、因子类型和日期类型。

相关文章
|
2月前
|
存储 Windows Perl
R 语言教程 之 R 数据类型 6
R语言教程之R数据类型第6部分,深入讲解了字符串数据类型及其操作函数,包括大小写转换、字符统计、字符串截取与拆分、类型转换及正则表达式应用等,示例展示了常见字符串处理技巧。
45 1
|
2月前
|
存储 C语言 索引
R 语言教程 之 R 数据类型 5
R语言中的数据类型包括逻辑型等,逻辑型主要用于向量的逻辑运算。通过`c()`创建向量,使用`>`、`&`等运算符进行条件判断,`which()`函数可筛选符合条件的元素索引。`all()`和`any()`分别用于检测向量是否全为真或含真值。
48 4
|
2月前
|
存储
R 语言教程 之 R 数据类型 4
R语言中的数据类型是用于定义变量或函数的系统。变量类型决定其存储空间及位模式的解析方式。向量可通过c()函数、min:max运算符或seq()函数生成,rep()函数用于生成重复序列。NA表示“缺失”,NULL表示“不存在”。例如,length(c(NA, NA, NULL))返回2,说明NULL在向量中不占位置。
45 5
|
2月前
|
存储
R 语言教程 之 R 数据类型 3
本教程介绍R语言中的数据类型及向量统计函数,包括sum、mean、var等,通过实例展示如何使用这些函数进行基本的统计计算。
43 4
|
3月前
|
存储 Rust Java
R 语言教程 之 R 数据类型 2
R语言中的数据类型涵盖了变量和函数的广泛系统,其中向量(Vector)作为基础数据结构之一,类似于线性表或数组,支持高效的数学运算与操作。向量可通过`c()`函数创建,支持元素级运算、索引访问及部分提取等特性。此外,R提供了如`sort()`、`rev()`和`order()`等函数,方便进行向量的排序与逆序操作。
58 7
|
3月前
|
存储
R 语言教程 之 R 数据类型 1
R 语言是一种广泛用于统计计算和图形生成的编程语言。本教程介绍 R 语言的基本数据类型,包括数字、逻辑和文本类型,以及如何定义变量。R 中的变量定义灵活,无需显式声明类型。此外,还介绍了六种主要的对象类型:向量、列表、矩阵、数组、因子和数据框。
68 9
|
6月前
|
存储 数据挖掘 数据处理
R语言中的数据类型转换:解决常见问题的技术指南
【8月更文挑战第28天】数据类型转换是R语言编程中的一项基本技能,对于确保数据处理的准确性和效率至关重要。本文介绍了R中的基本数据类型及其转换方法,并探讨了解决常见问题的一些技巧。掌握这些知识和技巧,将有助于你更加高效地利用R语言进行数据分析和统计建模。
|
6月前
|
存储 数据挖掘 数据处理
R语言基础数据类型与结构详解
【8月更文挑战第27天】R语言的基础数据类型与数据结构是理解和操作数据的基础。掌握这些基础概念,对于高效地进行数据分析和统计建模至关重要。
R语言笔记丨从零学起?环境安装、基础知识、运算法则、数据类型(下)
R语言笔记丨从零学起?环境安装、基础知识、运算法则、数据类型(下)
|
机器学习/深度学习 数据挖掘 Linux
R语言笔记丨从零学起?环境安装、基础知识、运算法则、数据类型(上)
R语言笔记丨从零学起?环境安装、基础知识、运算法则、数据类型