[R数据科学] 1.6几何对象

简介: 前面几节的内容比较少,第1.5节我对其做了补充,可见R可视乎|分面一页多图,课后练习题也可在该篇文章中找到。

前言


本最近打算把《R数据科学》过一遍,并且把课后习题都做一下。先从第一章开始吧,快速把ggplot过一下。第一章目录如下:

ZQJ@_%{Q3I0Y2IODESU1X9I.png

前面几节的内容比较少,第1.5节我对其做了补充,可见R可视乎|分面一页多图,课后练习题也可在该篇文章中找到。


1.6节主要讲几何对象:表示数据的几何图形对象,比如条形图,折线图,箱线图等。要想改变图中的几何对象,需要修改添加在ggplot() 函数中的几何对象函数。1.6节的内容不是很多,我们主要通过写本节的练习来回顾知识点。


练习


(1) 在绘制折线图、箱线图、直方图和分区图时,应该分别使用哪种几何对象?

:geom_line(),   geom_boxplot(),  geom_histogram(),


(2) 在脑海中运行以下代码,并预测会有何种输出。接着在 R 中运行代码,并检查你的预测是否正确。

ggplot(data = mpg,
  mapping = aes(x = displ, y = hwy, color = drv)) +
  geom_point() +
  geom_smooth(se = FALSE)

想象下:x轴是displ,y轴是hwy,颜色使用drv填充,然后加了一个散点图(中间没有参数,用默认),再加上一个拟合曲线,没有绘制出区间。由于两个集合对象都没有对mapping进行设置,所以会使用原始涂层的aes(x = displ, y = hwy, color = drv))。所以出来的结果,散点图和拟合曲线都是三种颜色。下面是出来的颜色:

6}2_2]V{%_TYH34B_QE94)W.png


(3)  show.legend = FALSE 的作用是什么?删除它会发生什么情况?

:是把图例隐藏了,默认参数是show.legend = TRUE.


(4)  geom_smooth() 函数中的 se 参数的作用是什么?

:可以绘制出区间,当se = TRUE(默认)则会出现区间。


(5) 以下代码生成的两张图有什么区别吗?为什么?

#第一幅图
ggplot(data = mpg, mapping = aes(x = displ, y = hwy)) +
geom_point() +
geom_smooth()
#第二幅图
ggplot() +
geom_point(data = mpg,
mapping = aes(x = displ, y = hwy)
) +
geom_smooth(data = mpg,
mapping = aes(x = displ, y = hwy)
)

没有什么区别,第一个图在原始上就设定了x,y。后面两个集合对象就可以默认使用前面的设置了。而第二个图则是原始没有设置,而是在集合对象中一一设置了。

第一种方法:简便;第二种方法:灵活,可以设置不同的x,y。


(6) 自己编写 R 代码来生成以下各图image.gif

第一个图: x为displ,y为hwy。画了散点图(geom_point)并绘制了拟合曲线(geom_smooth),没加置信区间(se =FALSE)

ggplot(data = mpg,aes(x = displ,y = hwy))+
  geom_point(size=3)+
  geom_smooth(se=F,size=2)

(O7@6L@BI3W5O%HF_PC{ASC.png


第二个图: 在第一个基础上根据drv变量绘制了三条拟合曲线,并且没有绘制区间。并且把图例删除了(show.legend = FALSE)

ggplot(data = mpg,aes(x = displ,y = hwy))+
  geom_point(size=3)+
  geom_smooth(aes(fill=drv),se=F,size=2,show.legend = FALSE)

image.gif

第三个图: 散点图颜色的颜色根据drv变量进行变化,并且拟合曲线也是和散点图相同颜色(所以可以在最原始图层中加入color=drv),没有拟合曲线的区间,但是有图例(默认就是有的)。

ggplot(data = mpg,aes(x = displ,y = hwy,color=drv))+
  geom_point(size=3)+
  geom_smooth(se=F,size=2)

$249[LP57}O`HJOM0KZB}ZI.png


第四个图: 根据frv变量给散点图填充,但是只绘制了一条拟合线。所以这里不可以直接放在原始图层里,得放在geom_point()中。

ggplot(data = mpg,aes(x = displ,y = hwy))+
  geom_point(aes(color=drv),size=3)+
  geom_smooth(se=F,size=2)

83@F0%@O_~KKPFT6R)VDU_O.png


第五幅图:在第三幅图基础上改变了拟合曲线的线的类型(linetype)。

ggplot(data = mpg,aes(x = displ,y = hwy,color=drv))+
  geom_point(size=3)+
  geom_smooth(aes(linetype=drv),se=F,size=2)

image.gif

第六幅图: 没有拟合曲线,直接将散点图的颜色区分开了,有点像第三幅图的简化版。

ggplot(data = mpg,aes(x = displ,y = hwy,color=drv))+
  geom_point(size=3)

30(KHJM0(E}HZG6)G55U4DB.png

目录
相关文章
|
5月前
|
机器学习/深度学习 数据可视化 数据挖掘
数据分享|R语言对论文作者研究机构、知识单元地理空间数据可视化
数据分享|R语言对论文作者研究机构、知识单元地理空间数据可视化
|
5月前
|
机器学习/深度学习 自然语言处理 数据可视化
【Python百宝箱】数据科学的黄金三角:数据挖掘和聚类
【Python百宝箱】数据科学的黄金三角:数据挖掘和聚类
219 2
|
数据建模 数据挖掘 Linux
|
机器学习/深度学习
机器学习数学基础五:数据科学的一些基本分布
每一次尝试都是独立的,因为前一次投掷的结果不能决定或影响当前投掷的结果。只有两个可能的结果并且重复n次的实验叫做项式。二项分布的参数是n和p,其中n是试验的总数,p是每次试验成功的概率。
65 0
机器学习数学基础五:数据科学的一些基本分布
|
机器学习/深度学习 测试技术 计算机视觉
9个数据科学中常见距离度量总结以及优缺点概述(下)
9个数据科学中常见距离度量总结以及优缺点概述
413 0
9个数据科学中常见距离度量总结以及优缺点概述(下)
|
算法 搜索推荐 测试技术
9个数据科学中常见距离度量总结以及优缺点概述(上)
9个数据科学中常见距离度量总结以及优缺点概述
388 0
9个数据科学中常见距离度量总结以及优缺点概述(上)
|
机器学习/深度学习 存储 安全
初识R语言之概念认知篇
初识R语言之概念认知篇
262 0
初识R语言之概念认知篇
|
机器学习/深度学习 算法 数据挖掘
程序员学数据科学需要掌握的常用算法和方法术语
  数据科学是一门有关机器学习、统计学与数据挖掘的交叉学科,它的目标是通过算法和统计分析方法从现存数据中获取新知识。下面小编将介绍数据科学中的算法和方法术语。   k最近邻算法:一种预测未知数据项的算法,未知数据项(的值)近似于其k个最近邻居的多数值。朴素贝叶斯分类器:使用关于条件概率的贝叶斯定理,即P(A|B)=(P(B|A) * P(A))/P(B),来分类数据项的一种方法,假设数据的特定变量之间相互独立。决策树:一种模型,根据树上的分支与实际数据项之间的匹配属性,将数据项分类到叶子节点中的一个类中。随机决策树:决策树的一种,其中的每个分支在构建时仅使用可用变量的随机子集。随机森林:基
137 0
|
机器学习/深度学习 算法 数据挖掘
数据挖掘与机器学习关系与区别
一、概念定义 机器学习:广泛的定义为 “利用经验来改善计算机系统的自身性能。”,事实上,由于“经验”在计算机系统中主要是以数据的形式存在的,因此机器学习需要设法对数据进行分析,这就使得它逐渐成为智能数据分析技术的创新源之一,并且为此而受到越来越多的关注。
1680 0
|
数据可视化 Python
计算与推断思维 一、数据科学
一、数据科学 原文:Data Science 译者:飞龙 协议:CC BY-NC-SA 4.0 自豪地采用谷歌翻译 什么是数据科学 数据科学是通过探索,预测和推断,从大量不同的数据集中得出有用的结论。
1157 0