1. 只为区分均值而制作条形图
在科学出版物中,用于区分均值的图表非常普遍。我们有两组或多组数据,每组都包含多个观测点;这些组可能具有不同的平均值、变异性和数据分布。可视化的目标是展示数据的平均值及其分布范围(离散程度)。
在这个案例中,两组数据的平均值和标准偏差相近,但它们的分布却有着显著差异。我们能说它们是“一样的”吗?最好不要用条形图来区分均值,或者至少在确定使用条形图之前,先检查几个关键点。
2. 为小样本数据绘制小提琴图
这种情况在学术文献中颇为常见,然而遗憾的是,对于样本量较小的情况,小提琴图(以及任何形式的平滑分布曲线)并不适用。
即使基础数据相似,小样本量时分布和四分位数也可能有显著差异。分布和四分位数只有在样本量较大时才具有实际意义。我曾进行过一项实验,多次从同一个正态分布中抽取样本,并计算每个样本的四分位数。我发现只有当样本量超过50时,四分位数才会趋于稳定。
3. 对单向数据采用双向色阶
这是一种真正的数据可视化误区,而且这种情况相当普遍。
颜色渐变看起来很美观,但我们在使用时需要格外谨慎。当用颜色渐变来表示数值数据时,最深和最浅的颜色应该代表特定的意义。你可以自行决定这些颜色代表什么:比如最大值、最小值、平均值或零点。但它们应该代表一些有实际意义的数值。在热图或颜色渐变中,一个常见的错误是让最浅或最深的颜色代表一些随意的数值,这就像条形图中最长的条不代表最大值一样糟糕。你能想象这种情况吗?
4. 条形图
我们之前提到过,不建议用条形图来区分均值,但这里讨论的是另一个问题,它涉及到如何呈现多因素实验的结果。条形图在科学出版物中非常普遍,但遗憾的是,它们在传达实验结果方面效果不佳。
条形图之所以普遍,是因为多因素实验非常普遍。但是,条形图的设计并不适合其传达目的。要有效地展示多因素实验的结果,需要精心设计,通过感兴趣的因素进行分组或分面。
在这个例子中,我专注于比较在每个品种层面上,处理和移植对反应的影响。然而,如果关注的是在每个移植层面上,处理和品种对反应的影响,那么就需要不同的布局设计。
朋友们不会让朋友在不重排行和列的情况下制作热图 热图在科学出版物中非常普遍,特别是在组学领域的论文中。但是,为了让热图发挥其作用,我们必须考虑行和列的排序问题。
5. 在未考虑行和列重排的情况下创建热图
热图在科学出版物中十分普遍,在组学领域的论文里尤其如此。不过,为了让热图发挥出应有的效果,我们不得不深思熟虑地安排行与列的顺序。
在这个示例中,我将细胞类型设为列,特征设为行。网格中展示的是 z 分数。如果不对行和列进行重排,我们无法从热图中获取任何有价值的信息。我们可以通过聚类来重排行和列,但这并不是唯一的方法。当然,如果行和列对应于物理实体(比如96孔板的行和列),那么你就不能对它们进行重排。但至少考虑对行和列进行重排是一个非常好的做法。
6. 未审视异常值的情况下创建热图
热图中的异常值可能会极大地影响我们对可视化的理解和解释。这一点在所有使用颜色来展示数值数据的图表中都是通用的。让我给你展示一个例子:
在这个示例中,我有两个观测点。对于每个观测点,我测量了20个特征。如果没有检查异常值,可能会觉得这两个观测点大体上是相似的,除了两个特征之外。然而,当颜色尺度调整到数据的95百分位数时,它显示这两个观测点在所有特征上都有明显差异。
7. 忘记在每个因素层面检查数据范围
这是一个我们很多人都遇到过的常见问题。在多因素实验中,响应变量的范围在不同因素层面之间有时会有显著变化。
这个假设性实验在两个组别(对照组与实验组)中测量了3种化合物。如果未对每种化合物的数据范围进行检查,你可能会忽略实验组对化合物1有显著影响的事实。这是因为化合物1的浓度范围远比实验中的其他化合物要窄。