R数据科学|5.5.3内容介绍

简介: 对于两个连续变量间的相关变动的可视化表示有一下两种方法:1. 使用geom_point()画出散点图2. 使用分箱处理

5.5.3 两个连续变量


对于两个连续变量间的相关变动的可视化表示有一下两种方法:

  1. 使用geom_point()画出散点图
  2. 使用分箱处理


使用geom_point()画出散点图

最简单的一种方法是:使用geom_point()画出散点图。你可以将相关变动看作点的模式。例如,你可以看到钻石的克拉数和价值之间存在一种指数关系:

ggplot(data = diamonds) +
 geom_point(mapping = aes(x = carat, y = price))

TRXTU}Q4XSC8E_)3QG~0%@K.png

存在问题:随着数据集规模的不断增加,散点图的用处越来越小,因为数据点开始出现过绘制,并堆积在一片黑色区域中(如上面的散点图所示)

解决方法:使用alpha图形属性添加透明度:

ggplot(data = diamonds) +
 geom_point(
 mapping = aes(x = carat, y = price),
 alpha = 1 / 100
 )

image.gif

使用分箱处理

但是对于特别大的数据集使用透明度也不管用了,另一种解决方法是使用分箱

我们之前使用了geom_histogram()geom_freqpoly()函数(可参考5.3.1内容 )在一个维度上进行分箱。现在学习如何使用geom_bin2d()geom_hex()函数在两个维度上进行分箱。

两个连续变量同时分箱

  • geom_bin2d()创建长方形分箱
ggplot(data = smaller) +
 geom_bin2d(mapping = aes(x = carat, y = price))

N0EUTY}QV](HF(R(Q206Q]U.png

  • geom_hex()创建六边形分箱
# install.packages("hexbin")
ggplot(data = smaller) +
 geom_hex(mapping = aes(x = carat, y = price))

image.gif

对其中一个连续变量进行分箱

这里连续变量的作用就相当于分类变量。接下来就可以使用前面学过的对分类变量和连续变量的组合进行可视化的技术了,具体可见5.3.1内容

例如,对carat进行分箱,然后为每个组生成一个箱线图:

ggplot(data = smaller, mapping = aes(x = carat, y = price)) +
 geom_boxplot(mapping = aes(group = cut_width(carat, 0.1)))

]G@T6((M3BCURYT7N~NT(65.png

以上示例使用了cut_width(x, width)函数将 x 变量分成等宽的分箱。

如果想要体现不同数量的观测值,可以使用参数varwidth = TRUE 让箱线图的宽度与观测数量成正比。

另一种方法是近似地显示每个分箱中的数据点的数量,此时可以使用cut_number()函数:

ggplot(data = smaller, mapping = aes(x = carat, y = price)) +
 geom_boxplot(mapping = aes(group = cut_number(carat, 20)))

DPV@N%V_QOB4[)WU`9OT8[U.png

目录
相关文章
|
算法 数据挖掘 API
【数据科学基础】学习笔记
数据科学基础与数据挖掘
183 0
|
机器学习/深度学习 人工智能 算法
【数据科学】数据科学难题,怎么解释到底什么是数据科学
【数据科学】数据科学难题,怎么解释到底什么是数据科学
|
机器学习/深度学习 人工智能 算法
数据科学难题,怎么解释到底什么是数据科学
数据科学难题,怎么解释到底什么是数据科学
|
数据可视化
R数据科学|5.5.1 内容介绍
如果变动描述的是一个变量内部的行为,那么相关变动描述的就是多个变量之间的行为。相关变动是两个或多个变量以相关的方式共同变化所表现出的趋势。查看相关变动的最好 方式是将两个或多个变量间的关系以可视化的方式表现出来。如何进行这种可视化表示同 样取决于相关变量的类型。
212 0
|
SQL
R数据科学|第九章内容介绍
在实际应用中,我们常会涉及到多个数据表,必须综合使用它们才能找到关键信息。存在于多个表中的这种数据统称为关系数据。本章中的很多概念都和SQL中的相似,只是在dplyr中的表达形式略微不同。一般来说,dplyr 要比 SQL 更容易使用
163 0
R数据科学|第十章内容介绍(二)
本章通过学习字符串的处理,再结合正则表达式进行正确的模式匹配。
324 0
R数据科学|第十章内容介绍(二)
R数据科学|第十一章内容介绍
因子在 R 中用于处理分类变量。从历史上看,因子远比字符串更容易处理。因此,R 基础包中的很多函数都自动将字符串转换为因子。
198 0
R数据科学|第十一章内容介绍
R数据科学|3.6内容介绍
上节我们对选择现有的列和使用mutate添加新列做了介绍。现在对数据框使用summarize()进行分组摘要进行介绍。
205 0
|
大数据
R数据科学|第七章内容介绍
tibble是一种简单数据框,它对data.frame的功能进行了一些修改,更易于使用。本文将介绍tidyverse的核心R包之一——tibble包
212 0
|
存储 Apache
R数据科学|第八章内容介绍
本文将介绍如何使用readr包将平面文件加载到 R 中,readr 也是 tidyverse 的核心 R包之一。
147 0