科研绘图你值得注意的14个点 (1)

简介: 科研绘图你值得注意的14个点 (1)

1. 只为区分均值而制作条形图

在科学出版物中,用于区分均值的图表非常普遍。我们有两组或多组数据,每组都包含多个观测点;这些组可能具有不同的平均值、变异性和数据分布。可视化的目标是展示数据的平均值及其分布范围(离散程度)。

在这个案例中,两组数据的平均值和标准偏差相近,但它们的分布却有着显著差异。我们能说它们是“一样的”吗?最好不要用条形图来区分均值,或者至少在确定使用条形图之前,先检查几个关键点。

2. 为小样本数据绘制小提琴图

这种情况在学术文献中颇为常见,然而遗憾的是,对于样本量较小的情况,小提琴图(以及任何形式的平滑分布曲线)并不适用。

即使基础数据相似,小样本量时分布和四分位数也可能有显著差异。分布和四分位数只有在样本量较大时才具有实际意义。我曾进行过一项实验,多次从同一个正态分布中抽取样本,并计算每个样本的四分位数。我发现只有当样本量超过50时,四分位数才会趋于稳定。

3. 对单向数据采用双向色阶

这是一种真正的数据可视化误区,而且这种情况相当普遍。

颜色渐变看起来很美观,但我们在使用时需要格外谨慎。当用颜色渐变来表示数值数据时,最深和最浅的颜色应该代表特定的意义。你可以自行决定这些颜色代表什么:比如最大值、最小值、平均值或零点。但它们应该代表一些有实际意义的数值。在热图或颜色渐变中,一个常见的错误是让最浅或最深的颜色代表一些随意的数值,这就像条形图中最长的条不代表最大值一样糟糕。你能想象这种情况吗?

4. 条形图

我们之前提到过,不建议用条形图来区分均值,但这里讨论的是另一个问题,它涉及到如何呈现多因素实验的结果。条形图在科学出版物中非常普遍,但遗憾的是,它们在传达实验结果方面效果不佳。

条形图之所以普遍,是因为多因素实验非常普遍。但是,条形图的设计并不适合其传达目的。要有效地展示多因素实验的结果,需要精心设计,通过感兴趣的因素进行分组或分面。

在这个例子中,我专注于比较在每个品种层面上,处理和移植对反应的影响。然而,如果关注的是在每个移植层面上,处理和品种对反应的影响,那么就需要不同的布局设计。

朋友们不会让朋友在不重排行和列的情况下制作热图 热图在科学出版物中非常普遍,特别是在组学领域的论文中。但是,为了让热图发挥其作用,我们必须考虑行和列的排序问题。

5. 在未考虑行和列重排的情况下创建热图

热图在科学出版物中十分普遍,在组学领域的论文里尤其如此。不过,为了让热图发挥出应有的效果,我们不得不深思熟虑地安排行与列的顺序。

在这个示例中,我将细胞类型设为列,特征设为行。网格中展示的是 z 分数。如果不对行和列进行重排,我们无法从热图中获取任何有价值的信息。我们可以通过聚类来重排行和列,但这并不是唯一的方法。当然,如果行和列对应于物理实体(比如96孔板的行和列),那么你就不能对它们进行重排。但至少考虑对行和列进行重排是一个非常好的做法。

6. 未审视异常值的情况下创建热图

热图中的异常值可能会极大地影响我们对可视化的理解和解释。这一点在所有使用颜色来展示数值数据的图表中都是通用的。让我给你展示一个例子:

在这个示例中,我有两个观测点。对于每个观测点,我测量了20个特征。如果没有检查异常值,可能会觉得这两个观测点大体上是相似的,除了两个特征之外。然而,当颜色尺度调整到数据的95百分位数时,它显示这两个观测点在所有特征上都有明显差异。

7. 忘记在每个因素层面检查数据范围

这是一个我们很多人都遇到过的常见问题。在多因素实验中,响应变量的范围在不同因素层面之间有时会有显著变化。

这个假设性实验在两个组别(对照组与实验组)中测量了3种化合物。如果未对每种化合物的数据范围进行检查,你可能会忽略实验组对化合物1有显著影响的事实。这是因为化合物1的浓度范围远比实验中的其他化合物要窄。

相关文章
|
6天前
|
编解码 Java 程序员
写代码还有专业的编程显示器?
写代码已经十个年头了, 一直都是习惯直接用一台Mac电脑写代码 偶尔接一个显示器, 但是可能因为公司配的显示器不怎么样, 还要接转接头 搞得桌面杂乱无章,分辨率也低,感觉屏幕还是Mac自带的看着舒服
|
8天前
|
存储 缓存 关系型数据库
MySQL事务日志-Redo Log工作原理分析
事务的隔离性和原子性分别通过锁和事务日志实现,而持久性则依赖于事务日志中的`Redo Log`。在MySQL中,`Redo Log`确保已提交事务的数据能持久保存,即使系统崩溃也能通过重做日志恢复数据。其工作原理是记录数据在内存中的更改,待事务提交时写入磁盘。此外,`Redo Log`采用简单的物理日志格式和高效的顺序IO,确保快速提交。通过不同的落盘策略,可在性能和安全性之间做出权衡。
1562 10
|
1月前
|
弹性计算 人工智能 架构师
阿里云携手Altair共拓云上工业仿真新机遇
2024年9月12日,「2024 Altair 技术大会杭州站」成功召开,阿里云弹性计算产品运营与生态负责人何川,与Altair中国技术总监赵阳在会上联合发布了最新的“云上CAE一体机”。
阿里云携手Altair共拓云上工业仿真新机遇
|
11天前
|
人工智能 Rust Java
10月更文挑战赛火热启动,坚持热爱坚持创作!
开发者社区10月更文挑战,寻找热爱技术内容创作的你,欢迎来创作!
738 27
|
8天前
|
存储 SQL 关系型数据库
彻底搞懂InnoDB的MVCC多版本并发控制
本文详细介绍了InnoDB存储引擎中的两种并发控制方法:MVCC(多版本并发控制)和LBCC(基于锁的并发控制)。MVCC通过记录版本信息和使用快照读取机制,实现了高并发下的读写操作,而LBCC则通过加锁机制控制并发访问。文章深入探讨了MVCC的工作原理,包括插入、删除、修改流程及查询过程中的快照读取机制。通过多个案例演示了不同隔离级别下MVCC的具体表现,并解释了事务ID的分配和管理方式。最后,对比了四种隔离级别的性能特点,帮助读者理解如何根据具体需求选择合适的隔离级别以优化数据库性能。
225 3
|
14天前
|
Linux 虚拟化 开发者
一键将CentOs的yum源更换为国内阿里yum源
一键将CentOs的yum源更换为国内阿里yum源
779 5
|
2天前
|
Python
【10月更文挑战第10天】「Mac上学Python 19」小学奥数篇5 - 圆和矩形的面积计算
本篇将通过 Python 和 Cangjie 双语解决简单的几何问题:计算圆的面积和矩形的面积。通过这道题,学生将掌握如何使用公式解决几何问题,并学会用编程实现数学公式。
108 60
|
1天前
|
人工智能
云端问道12期-构建基于Elasticsearch的企业级AI搜索应用陪跑班获奖名单公布啦!
云端问道12期-构建基于Elasticsearch的企业级AI搜索应用陪跑班获奖名单公布啦!
115 1
|
3天前
|
Java 开发者
【编程进阶知识】《Java 文件复制魔法:FileReader/FileWriter 的奇妙之旅》
本文深入探讨了如何使用 Java 中的 FileReader 和 FileWriter 进行文件复制操作,包括按字符和字符数组复制。通过详细讲解、代码示例和流程图,帮助读者掌握这一重要技能,提升 Java 编程能力。适合初学者和进阶开发者阅读。
104 61
|
14天前
|
JSON 自然语言处理 数据管理
阿里云百炼产品月刊【2024年9月】
阿里云百炼产品月刊【2024年9月】,涵盖本月产品和功能发布、活动,应用实践等内容,帮助您快速了解阿里云百炼产品的最新动态。
阿里云百炼产品月刊【2024年9月】