《R数据可视化手册》——3.9 添加数据标签

简介:

本节书摘来异步社区《R数据可视化手册》一书中的第3章,第3.9节,作者:【美】Winston Chang,更多章节内容可以访问云栖社区“异步社区”公众号查看。

3.9 添加数据标签

问题
如何给条形图添加数据标签?

方法
在绘图命令中加上geom_text()即可为条形图添加数据标签。运行命令时,需要分别指定一个变量映射给x、y和标签本身。通过设定vjust(竖直调整数据标签位置)可以将标签位置移动至条形图顶端的上方或者下方,如图3-22所示。

library(gcookbook) # 为了使用数据

# 在条形图顶端下方
ggplot(cabbage_exp, aes(x=interaction(Date, Cultivar), y=Weight)) +
   geom_bar(stat="identity") +
   geom_text(aes(label=Weight), vjust=1.5, colour="white")

# 在条形图顶端上方
ggplot(cabbage_exp, aes(x=interaction(Date, Cultivar), y=Weight)) +
  geom_bar(stat="identity") +
  geom_text(aes(label=Weight), vjust=-0.2)

fc8e0f607ad58a3d4eeab5e430fa84f000909fe6

注意,当数据标签被置于条形图顶端时,它们可能会被遮挡。为了避免这个问题,可以参见8.2节的内容。

讨论
在图3-22中,数据标签的y轴坐标位于每个条形的顶端中心位置;通过设定竖直调整(vjust)可以将数据标签置于条形图顶端的上方或者下方。这种做法的不足之处在于当数据标签被置于条形图顶端上方时有可能使数据标签溢出绘图区域。为了修正这个问题,我们可以手动设定y轴的范围,也可以保持竖直调整不变,而令数据标签的y轴坐标高于条形图顶端。后一种办法的不足之处在于,当你想将数据标签完全置于条形图顶端上方或者下方的时候,竖直方向调整的幅度依赖于y轴的数据范围;而更改vjust时,数据标签离条形顶端的距离会根据条形图的高度自动进行调整。

# 将y轴上限变大
ggplot(cabbage_exp, aes(x=interaction(Date, Cultivar), y=Weight)) +
  geom_bar(stat="identity") +
  geom_text(aes(label="Weight"), vjust=-0.2) +
  ylim(0, max(cabbage_exp$Weight)*1.05)

# 设定标签的y轴位置使其略高于条形图顶端——y轴范围会自动调整
ggplot(cabbage_exp, aes(x=interaction(Date, Cultivar), y=Weight)) +
  geom_bar(stat="identity") +
  geom_text(aes(y=Weight+0.1, label=Weight))

对于簇状条形图,需要设定position=position_dodge()并给其一个参数来设定分类间距。分类间距的默认值是0.9,因为簇状条形图的条形更窄,所以,需要使用字号(size)来缩小数据标签的字体大小以匹配条形宽度。数据标签的默认字号是5,这里我们将字号设定为3使其看起来更小(见图3-23)。

ggplot(cabbage_exp, aes(x=Date, y=Weight, fill=Cultivar)) +
  geom_bar(stat="identity", position="dodge") +
  geom_text(aes(label=Weight), vjust=1.5, colour="white",
        position=position_dodge(.9), size=3)

8b5ab4ff7842d2ea83a5f7da826b13bf42c9a0d2

向堆积条形图添加数据标签之前,要先对每组条形对应的数据进行累积求和。在进行本操作之前,须保证数据的合理排序,否则,可能计算出错误的累积和。我们可以用plyr包中的arrange()函数完成上述操作,plyr包是一个随ggplot2包加载的软件包。

library(plyr)
# 根据日期和性别对数据进行排序
ce <- arrange(cabbage_exp, Date, Cultivar)

确认数据合理排序之后,我们可以借助ddply()函数以Date为分组变量对数据进行分组,并分别计算每组数据对应的变量Weight的累积和。

# 计算累积和
ce <- ddply(ce, "Date", transform, label_y=cumsum(Weight))
ce

Cultivar Date Weight    sd n     se percent_weight label_y
   c39 d16  3.18 0.9566144 10 0.30250803    58.45588  3.18
   c52 d16  2.26 0.4452215 10 0.14079141    41.54412  5.44
   c39 d20  2.80 0.2788867 10 0.08819171    47.37733  2.80
   c52 d20  3.11 0.7908505 10 0.25008887    52.62267  5.91
   c39 d21  2.74 0.9834181 10 0.31098410    65.08314  2.74
   c52 d21  1.47 0.2110819 10 0.06674995    34.91686  4.21

ggplot(ce, aes(x=Date, y=Weight, fill=Cultivar)) +
  geom_bar(stat="identity") +
  geom_text(aes(y=label_y, label=Weight), vjust=1.5, colour="white")

结果如图3-24所示。

5e39328ae7782a8610cf6459057d46b7d49f7212

使用数据标签时,对堆叠顺序的调整最好是通过在计算累积和之前修改因子的水平顺序(参见15.8节)来完成。另一种修改堆叠顺序的方法是在标度中指定breaks参数,但在这里此方法并不合适,因为累计求和的顺序与堆叠的顺序并不一致。

如果想把数据标签置于条形中部(见图3-25),须对累计求和的结果加以调整,并同时略去geom_bar()函数中对y偏移量(offset)的设置:

ce <- arrange(cabbage_exp, Date, Cultivar)

#计算y轴的位置,将数据标签置于条形中部
ce <- ddply(ce, "Date", transform, label_y=cumsum(Weight)-0.5*Weight)

ggplot(ce, aes(x=Date, y=Weight, fill=Cultivar))+
  geom_bar(stat="identity")+
  geom_text(aes(y=label_y, label=Weight), colour="White")

219d2e7d9cbb5170220073c99c1843bb045a5b56

为了得到效果更好的条形图(见图3-26),我们修改一下图例顺序和颜色,将数据标签置于条形中间,同时通过字号参数(size)缩小标签字号,并调用paste函数在标签后面添加“kg”,为了使得标签保留两位小数我们还需调用format函数:

ggplot(ce, aes(x=Date, y=Weight, fill=Cultivar)) +
  geom_bar(stat="identity", colour="black") +
  geom_text(aes(y=label_y, label=paste(format(Weight, nsmall=2), "kg")),
        size=4)+
  guides(fill=guide_legend(reverse=TRUE)) +
  scale_fill_brewer(palette="Pastel1")

2baf46c0fb5e11c79a853160adfa612a393c299c

另见
更多关于控制文本格式的内容可参见9.2节。

更多关于分组转换数据的内容可参见15.6节。

相关文章
|
数据采集 数据挖掘 数据处理
R语言-数据处理:dplyr包的distinct 条件去重用法
dplyr中的distinct函数是一种非常实用的数据清洗函数,它可以帮助我们快速、方便地去除数据框中的重复行。 本文简单分享了在R语言中进行数据框条件去重的一些较为常用的操作方法,以供参考
3207 0
|
数据处理
R语言-数据处理:dplyr包的summarise函数汇总用法
summarise 函数是dplyr中非常常用的函数,可以快速、高效地计算出每个变量的统计量。本文分享了这个函数的一些最常用用法以供参考
1609 0
|
9月前
|
机器学习/深度学习 TensorFlow 算法框架/工具
【Keras+计算机视觉+Tensorflow】DCGAN对抗生成网络在MNIST手写数据集上实战(附源码和数据集 超详细)
【Keras+计算机视觉+Tensorflow】DCGAN对抗生成网络在MNIST手写数据集上实战(附源码和数据集 超详细)
170 0
|
9月前
|
机器学习/深度学习 算法 数据可视化
一图胜千言:EBImage库分割和标注让你的图像说话
一图胜千言:EBImage库分割和标注让你的图像说话
240 0
|
搜索推荐 BI 决策智能
阿里云数据中台19本电子书下载LIST
【阿里云数据中台官网】全新上线,一次性开放产品及零售行业、政务行业、金融行业等近20篇白皮书下载~
28065 0
阿里云数据中台19本电子书下载LIST
|
2月前
|
分布式计算 DataWorks 搜索推荐
DataWorks产品评测:大数据开发治理平台的最佳实践与体验
DataWorks是阿里云推出的一款大数据开发治理平台,集成了多种大数据引擎,支持数据集成、开发、分析和任务调度。本文通过用户画像分析的最佳实践,评测了DataWorks的功能和使用体验,并提出了优化建议。通过实践,DataWorks在数据整合、清洗及可视化方面表现出色,适合企业高效管理和分析数据。
138 0
|
8月前
|
消息中间件 数据采集 DataWorks
DataWorks产品使用合集之如何使用数据地图中的标签
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
125 0
|
数据可视化 图形学
R可视乎|圆环图
对于饼图,上一次学习《R语言数据可视化之美》的时候主要利用graphics包和ggplot包(可见R可视乎|饼图)。这几天的学习中发现还有一个更加简便的方法——ggpie包。接下来做简单描述,然后进入圆环图的学习。
543 0
R可视乎|圆环图

热门文章

最新文章