[译]数据会骗人?帮你能看懂图表的误导!

简介:


我们看到过各种图表,其中最常见的就是曲线图。你可能觉得它没有什么难理解的,很容易看明白。甚至,你自己也做过各种漂亮的曲线图。但是,如果处理不得当(或被精心处理过),会造成很大的误导。


记得我小时候读到一期《疯狂杂志》,里面有一则关于统计学的搞笑漫画。它讲了一个剧院老板是怎么通过设计含有误导数据的广告来说服毫无戒备之心的观众来观影。


漫画的第一幅图里,剧院经理在一则广告中声称上周电影票房翻倍。第二幅图画出了真实情况:第一周只有两个人来观影,第二周只有四人,还有一个人正在退场。


然而,多年来我仍看到媒体一直在发布这种误导信息。最常见的做法是,文章里的图表被巧妙的处理过,以用来支持作者自己想要表达的结论。或者,有些图表没被那么别有用心地设计过,只是作者不懂该如何准确呈现数据并得出结论。


我将选择彭博新闻社为例子,没有其它原因,只因为它是我最近遇到的。毕竟彭博新闻社是做财经新闻的,他们本应在统计数据上做的更好。但是,他们也犯一些误导错误,


例如这篇Mark Gimein写的文章美国男性:四十年的收入下降Mark Gimein是彭博网的公司和市场板块的编辑,以及Market Now 博客和时事通讯的领衔作者。听起来是个很聪明的人,对吧?不幸地是,他也犯了我在无数其它出版物里看到的同样错误。


在他写的文章里,他用了美国人口普查局的数据来说明:在过去三十年中,美国男性收入的中值(考虑了通货膨胀)不断地在下降。看下这张他用来证明自己观点的图表:



你能从上面的图表中得出什么结论呢?它看起来相当严峻,对吧?看看那直线的斜率!我们得多么忧心啊!


也许担心还为时过早,因为这张图表有几个问题。为了说明这些,我已经用同样的数据画了几个新版本,让我们一起来看一看。

数据点不足

在原始的图表中,作者对于每个年龄组仅选取了两个数据点。试想,如果在那30年间的某一年有一个尖峰?又或者,如果那个下降仅在过去的几年才开始?再或者,如果1972年和2012年是异常值并且扭曲了数据的趋势?


让我们回顾一下美国人口普查数据,并将1972年到2012年的数据都加进来,以得到更高的分辨率。我们得到如下结果:


增加数据分辨率后的结果


这与原图看起来有所不同,不是吗?现在我们分析一下45到54这一年龄组的人。我们会立即看到,他们收入的中位数在1972到1999年间是相对稳定的,这与作者直白的结论完全相反。如果仅从这一系列数据选取两个数据点(即1972和1999),实际上得到的结论是这一年龄段人群收入的中位数一直保持稳定。但是,原来的图表对这一事实有一定的误导。当我们观察整段的数据后发现,事实上45到54这一年龄段的人群收入是有所下降,但是这种下降的趋势到2000年就停止了。


对于其它年龄群而言,他们收入的下降更加平稳,但是25到34这一年龄段的人群收入在克林顿执政时期有所反弹。


从这个图表中我们可以得到的另一个结论是,男性收入的中位数的不稳定取决于哪个政党执政。除了里根执政期间,当美国共和党执政期间收入都会下降;相反,除了奥巴马执政期间(基于现有数据得出这个结论尚为时过早),当民主党执政时收入都会上升。彭博社的分析没有考虑这些因素中的任何一个。


让我们继续探讨下一个由于图表引发的误导。


被截断的图表

作者原图的第二个问题是,图表的Y轴并不是从0开始的。这有什么问题呢?一个Y轴被截断(不是从0开始)的图表,会放大变化趋势。让我们看看重新使用原始数据并把Y轴的起始值设置为0会得到什么结果。


Y轴未被截断的图表


现在你得到什么结论?根据这幅图表,你会认为男性的收入在40年内持续下降?也许是的。这幅图表清楚地显示了收入的下降趋势,并且是收入的整体下降。但是,相比起彭博社的原始图表,下降的斜率并不显著。


根据这张新图表,我们还可以得出一些其它的结论。1972年到1993年间,25岁到34岁这一年龄段的收入持续稳定地降低;接着,在克林顿执政期间有所上升;然后,在布什执政期间又开始降低。为什么会这样呢?


对于35岁到44岁的人来说,他们的收入从1972年就稳定降低。对于45到54岁的人来说,收入在2000年以前相对稳定,并从2000年开始就稳定降低。

即便我们使用彭博社的两点数据,而将Y轴的起始值设置为0,其变化也并没有非常剧烈。


显示整个Y轴的原两点图


这仍然是一个可怕的图表。但一眼看去,使用同样的数据,图中收入的趋势似乎比彭博社的图显示的趋于平缓。


比例

我要讨论的最后一个问题是比例。作者选择去展现过去三十年的数据。那么问题在哪呢?实际上还有其它25年的数据被省略了。


这意味着,如果1972年和2012年的数据都是异常值的话,彭博社的原始图表会发生很大的失真。事实证明,1972年是美国男性收入中位数的最高点,从这个意义下,它确实是一个异常值。


让我们看一下从1947年开始的完整的统计数据:



1947


令人惊奇的是,从19471972年的平均收入呈现平稳地逐年增长。


那么,1972年发生了什么? 布雷顿森林体系和金本位制的结束?我不是一个经济学家,所以就不费劲猜测了。但是,我正给大家展示完整的数据,证明操作这些数字去支持不同的事实是多么简单,而这些事实可能描述了完故事,也可能不是。


现在,这些数据描绘出了一个非常不同的情景。可以看到,在战后如干年数值陡涨,随后就是平台期和下降期,对于各个年龄层来说其对应的时间和比率有所不同。这个时期发生了什么?又是什么引起这些变化?这里很难给出一个宽泛的概括。


同样值得关注的,是25-34这个年龄层的收入差异开始增大,这有可能与服务行业和白领工作的增长有关。


给出一个极端的观点:如果我们想把标题写成美国男性收入在过去的65年持续上涨。我们可以用只有两个点的图形来支持这个观点,就像彭博社的图表。我们只需用19472012这两个点:


1947


看起来非常棒!让我们鼓励一下自己(Let’s pat ourselves on the back)。世界如此美好,万物如此美好。


除了彭博社,我还在的其它很多出版物中看到这类图表,并且他们也不是唯一犯这种错误的。我写这篇文章不是为了特别针对他们,更多的是为了证明:操作数据来描述一个事件来佐证你已存在的观点是非常容易的。


类似的,匮于分析及不完整展示的数据会误导人们得到错误的结论。我已经试图在这里证明了两种情况,当你再看到像链接中彭博社那样的文章,你会更加警惕;并且,当你在利用数据讲故事是,你也会更加谨慎。


原文发布时间为:2015-02-28

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关文章
|
Java 开发者 Spring
Spring Framework 中的 @Autowired 注解:概念与使用方法
【4月更文挑战第20天】在Spring Framework中,@Autowired 注解是实现依赖注入(Dependency Injection, DI)的一种非常强大的工具。通过使用 @Autowired,开发者可以减少代码中的引用绑定,提高模块间的解耦能力
1162 6
|
存储 算法 安全
深入剖析操作系统的内存管理机制
在数字世界的构建中,操作系统扮演着至关重要的角色。本文将探讨操作系统中的内存管理机制,揭示其背后的技术原理和设计哲学。从内存分配策略到虚拟内存的实现,再到内存保护和回收机制,我们将一探究竟,解析操作系统如何高效、安全地管理宝贵的内存资源。
437 35
|
运维 Kubernetes Cloud Native
云原生之旅:容器化与微服务架构的融合之道
在数字化转型的浪潮中,云原生技术以其高效、灵活的特性成为企业IT架构升级的重要选择。本文将探讨云原生的核心概念——容器化和微服务架构,并阐述它们如何相互融合,共同推动现代应用的开发与部署。通过深入浅出的解释,我们将揭示云原生如何助力企业快速适应市场变化,实现业务的持续创新和价值最大化。
|
8月前
|
JSON 测试技术 语音技术
VITA-1.5: 迈向GPT-4o级实时视频-语音交互
近期,由南京大学和腾讯优图推出的VITA-1.5在魔搭开源。VITA-1.5支持视频,音频,文本输入,以及音频输出。
477 66
|
6月前
|
人工智能 数据可视化 数据挖掘
工业零件不良率、残次率的智能数据分析和数字化管理
在传统工业领域,我们通过引入DataV-Note平台,成功实现了企业智能数据分析与数字化管理的初步目标。这一平台不仅显著提升了数据处理的效率和准确性,还为我们的日常运营提供了更加科学、直观的决策支持。然而,这只是智能化转型的第一步。展望未来,我们期望能够进一步深化技术应用,推动企业管理向更高层次的智能化方向迈进。通过持续优化数据分析能力、完善数字化管理体系,我们致力于将企业的运营模式从传统的经验驱动转变为数据驱动,从而全面提升管理效能和市场竞争力,为企业创造更大的长期价值
|
分布式计算 负载均衡 并行计算
Python 分布式计算框架 PP (Parallel Python):集群模式下的实践探索
该文介绍了使用Parallel Python (PP) 在两台物理机上构建分布式计算集群的经验。PP是一个轻量级框架,旨在简化Python代码在多处理器系统和集群中的并行执行。文中通过设置子节点的IP、端口和密钥启动PP服务器,并在主节点创建PP实例进行负载均衡。实验使用官方的质数和计算示例,显示PP在集群模式下能有效利用多台机器的多核CPU,实现计算效率的显著提升。未来,作者计划进一步研究PP在更复杂任务和大规模集群中的应用潜力。
|
Java 编译器 程序员
Spring AOP 和 AspectJ 的比较
Spring AOP 和 AspectJ 的比较
525 0
|
安全 网络协议 网络安全
HTTPS 存在哪些安全问题,有什么应对方案
HTTPS 是 HTTP 的安全版本,通过使用 SSL/TLS 协议对通信内容进行加密,提供了以下几个关键的安全特性:数据加密、身份认证和完整性保护。尽管 HTTPS 在很大程度上提高了安全性和数据传输的安全性,但仍然存在一些潜在的安全问题。以下是一些可能的问题以及相应的应对方案
|
JSON 前端开发 JavaScript
Threejs引入字体,实现3D文字,Canvas画布作为纹理贴图实现滚动字幕
Threejs引入字体,实现3D文字,Canvas画布作为纹理贴图实现滚动字幕
1172 0
Threejs引入字体,实现3D文字,Canvas画布作为纹理贴图实现滚动字幕
|
测试技术 数据安全/隐私保护
等价类,边界值,场景法的使用方法和运用场景
等价类,边界值,场景法的使用方法和运用场景
513 0