R数据科学-1(dplyr)

简介: R数据科学-1(dplyr)

R数据科学(dplyr)

如今数据分析如火如荼,R与Python大行其道。你还在用Excel整理数据么,你还在用spss整理数据么。

 

数据分析的基础:Data Clean

数据清洗是数据处理的必备工作,而且往往需要花费大量时间去整理,去提取想要的数据,因为画图,报表都需要特定格式的数据。

EXCEL缺点:

· 数据粘贴复制,导致存在很多副本,更改都不知道原来数据有没有被改动

· 数据排序,计算,鼠标点击,容易误操作。

· 忘记保存,白费时间

· 效率低,时间长

现在,我们将学习对处理数据有用的两个软件包:

1. dplyr是用于简化表格数据操作的软件包。

2. tidyr使您可以在不同的数据格式之间快速转换。

两个软件包中的命令都可以与管道函数(%>%)很好地配合使用,这可以使代码更具可读性。详细内容可参考Cheatsheet手册

image.png

image.png

image.png

1.数据框格式(DataFrame

一般,我们的excel包括行(col)与列(row),在R语言中,经常对excel操作的对象称之为Dataframe,那么在进行数据查看时候,R语言可以看到数据结构。但是往往会打印出来很长,tidyr中的tibble就解决了此问题,直接简单的看到数据结构及变量类型。

class(mtcars)可以查看数据的类型,为"data.frame";mtcars就可以看到全部的数据了。但是如果数据太多,那么就很不方便。

head(mtcars),可以看到数据的前面6行,属于数据的一个预览。但是看不到各个列的属性。

%>%管道函数,其实就是将f()写在了数据的后面,下面示例的两个操作,都得到df,效果一样。只不过 %>%看起来更简单,将mtcars赋予新的tibble。

df以后的输出,很简洁,能看到32*11的数据行与列,也能看到各列的属性。一目了然

image.png

image.png

2.数据-变量提取及产生

我们经常会用到,只需要里面的几个变量,不是所有的变量都输出。那么就涉及到变量的提取。就会用到select函数,可以提取需要的变量。有一个好处就是,不修改原是数据。

那如果新产生一个变量mpg1=mpg,或者new=mpg*cyl,就用到mutate函数,产生新变量。

image.png

3.数据-变量条件筛选

dplyr::filter()函数对上述新产生的变量的数据df,进行筛选。只要符合am=1给提取出来,或者对符合am=1,gear=4条件的输出。

image.png

5.数据分组计算

有时候,需要分组计算均值标准差,或者看gear不同水平下的最大值最小值,那么就用到group_by()summarise() 函数。
譬如,对不同gear计算mpg的均值及标准差。或者根据am及gear分组计算mpg均值标注差。

image.png

6.数据转换

有时候,处理数据时候,需要对变量类型进行转换,譬如字符串,因子及数值类型相互转换,上述数据里面dbl 意思是数值类型(double class)我们现在产生新的字符串chr及因子fct。使用mutate函数。可以看到mpg1与new都变成了chr与fct。

提取new,看一下。

image.png

有时候,会需要将连续性的变量,转换成分类变量。这时候就需要用到ifelse函数(转换成二分类变量),或者cut函数转换成多类别变量。代码如下 image.png

目录
相关文章
|
7天前
|
机器学习/深度学习 数据采集 数据可视化
Python数据科学实战:从Pandas到机器学习
Python数据科学实战:从Pandas到机器学习
|
13天前
|
数据处理 Python
在数据科学领域,Pandas和NumPy是每位数据科学家和分析师的必备工具
在数据科学领域,Pandas和NumPy是每位数据科学家和分析师的必备工具。本文通过问题解答形式,深入探讨Pandas与NumPy的高级操作技巧,如复杂数据筛选、分组聚合、数组优化及协同工作,结合实战演练,助你提升数据处理能力和工作效率。
35 5
|
数据可视化 JavaScript 前端开发
【数据科学】Bokeh
【数据科学】Bokeh
|
SQL 数据挖掘 Linux
这20个Pandas函数可以完成80%的数据科学工作
Pandas 是数据科学社区中使用最广泛的库之一,它是一个强大的工具,可以进行数据操作、清理和分析。本文将提供最常用的 Pandas 函数以及如何实际使用它们的样例。我们将涵盖从基本数据操作到高级数据分析技术的所有内容,到本文结束时,你会深入了解如何使用 Pandas 并使数据科学工作流程更高效。
156 0
|
数据挖掘 Python
【数据挖掘】pandas使用手册
【数据挖掘】pandas使用手册
【数据挖掘】pandas使用手册
|
SQL 数据挖掘 定位技术
《R数据科学》学习笔记|Note8:使用dplyr处理关系数据
《R数据科学》学习笔记|Note8:使用dplyr处理关系数据
194 0
《R数据科学》学习笔记|Note8:使用dplyr处理关系数据
|
大数据 数据处理
《R数据科学》学习笔记|Note6:使用tibble实现简单数据框
本系列为《R数据科学》(R for Data Science)的学习笔记。相较于其他R语言教程来说,本书一个很大的优势就是直接从实用的R包出发,来熟悉R及数据科学。更新过程中,读者朋友如发现错误,欢迎指正。如果有疑问,也可以在评论区留言或后台私信。希望各位读者朋友能学有所得!
551 0
《R数据科学》学习笔记|Note6:使用tibble实现简单数据框
《R数据科学》学习笔记|Note5:使用dplyr进行数据转换(下)
本系列为《R数据科学》(R for Data Science)的学习笔记。相较于其他R语言教程来说,本书一个很大的优势就是直接从实用的R包出发,来熟悉R及数据科学。更新过程中,读者朋友如发现错误,欢迎指正。如果有疑问,也可以在评论区留言或后台私信。希望各位读者朋友能学有所得!
168 0
《R数据科学》学习笔记|Note5:使用dplyr进行数据转换(下)
|
存储 数据采集 数据可视化
[R数据科学]tidyverse数据清洗案例详解
本中你将学习在R中数据处理简洁的方法,称为tidy data。将数据转换为这种格式需要一些前期工作,但这些工作从长远来看是值得的。一旦你有了整洁的数据和一些包提供的整洁工具,您将花费很少时间将数据从一种表示转换到另一种,从而可以将更多的时间花在分析问题上。
359 0
[R数据科学]tidyverse数据清洗案例详解
|
机器学习/深度学习 大数据 物联网
下一篇
无影云桌面