[译]数据会骗人?帮你能看懂图表的误导!

简介:


我们看到过各种图表,其中最常见的就是曲线图。你可能觉得它没有什么难理解的,很容易看明白。甚至,你自己也做过各种漂亮的曲线图。但是,如果处理不得当(或被精心处理过),会造成很大的误导。


记得我小时候读到一期《疯狂杂志》,里面有一则关于统计学的搞笑漫画。它讲了一个剧院老板是怎么通过设计含有误导数据的广告来说服毫无戒备之心的观众来观影。


漫画的第一幅图里,剧院经理在一则广告中声称上周电影票房翻倍。第二幅图画出了真实情况:第一周只有两个人来观影,第二周只有四人,还有一个人正在退场。


然而,多年来我仍看到媒体一直在发布这种误导信息。最常见的做法是,文章里的图表被巧妙的处理过,以用来支持作者自己想要表达的结论。或者,有些图表没被那么别有用心地设计过,只是作者不懂该如何准确呈现数据并得出结论。


我将选择彭博新闻社为例子,没有其它原因,只因为它是我最近遇到的。毕竟彭博新闻社是做财经新闻的,他们本应在统计数据上做的更好。但是,他们也犯一些误导错误,


例如这篇Mark Gimein写的文章美国男性:四十年的收入下降Mark Gimein是彭博网的公司和市场板块的编辑,以及Market Now 博客和时事通讯的领衔作者。听起来是个很聪明的人,对吧?不幸地是,他也犯了我在无数其它出版物里看到的同样错误。


在他写的文章里,他用了美国人口普查局的数据来说明:在过去三十年中,美国男性收入的中值(考虑了通货膨胀)不断地在下降。看下这张他用来证明自己观点的图表:



你能从上面的图表中得出什么结论呢?它看起来相当严峻,对吧?看看那直线的斜率!我们得多么忧心啊!


也许担心还为时过早,因为这张图表有几个问题。为了说明这些,我已经用同样的数据画了几个新版本,让我们一起来看一看。

数据点不足

在原始的图表中,作者对于每个年龄组仅选取了两个数据点。试想,如果在那30年间的某一年有一个尖峰?又或者,如果那个下降仅在过去的几年才开始?再或者,如果1972年和2012年是异常值并且扭曲了数据的趋势?


让我们回顾一下美国人口普查数据,并将1972年到2012年的数据都加进来,以得到更高的分辨率。我们得到如下结果:


增加数据分辨率后的结果


这与原图看起来有所不同,不是吗?现在我们分析一下45到54这一年龄组的人。我们会立即看到,他们收入的中位数在1972到1999年间是相对稳定的,这与作者直白的结论完全相反。如果仅从这一系列数据选取两个数据点(即1972和1999),实际上得到的结论是这一年龄段人群收入的中位数一直保持稳定。但是,原来的图表对这一事实有一定的误导。当我们观察整段的数据后发现,事实上45到54这一年龄段的人群收入是有所下降,但是这种下降的趋势到2000年就停止了。


对于其它年龄群而言,他们收入的下降更加平稳,但是25到34这一年龄段的人群收入在克林顿执政时期有所反弹。


从这个图表中我们可以得到的另一个结论是,男性收入的中位数的不稳定取决于哪个政党执政。除了里根执政期间,当美国共和党执政期间收入都会下降;相反,除了奥巴马执政期间(基于现有数据得出这个结论尚为时过早),当民主党执政时收入都会上升。彭博社的分析没有考虑这些因素中的任何一个。


让我们继续探讨下一个由于图表引发的误导。


被截断的图表

作者原图的第二个问题是,图表的Y轴并不是从0开始的。这有什么问题呢?一个Y轴被截断(不是从0开始)的图表,会放大变化趋势。让我们看看重新使用原始数据并把Y轴的起始值设置为0会得到什么结果。


Y轴未被截断的图表


现在你得到什么结论?根据这幅图表,你会认为男性的收入在40年内持续下降?也许是的。这幅图表清楚地显示了收入的下降趋势,并且是收入的整体下降。但是,相比起彭博社的原始图表,下降的斜率并不显著。


根据这张新图表,我们还可以得出一些其它的结论。1972年到1993年间,25岁到34岁这一年龄段的收入持续稳定地降低;接着,在克林顿执政期间有所上升;然后,在布什执政期间又开始降低。为什么会这样呢?


对于35岁到44岁的人来说,他们的收入从1972年就稳定降低。对于45到54岁的人来说,收入在2000年以前相对稳定,并从2000年开始就稳定降低。

即便我们使用彭博社的两点数据,而将Y轴的起始值设置为0,其变化也并没有非常剧烈。


显示整个Y轴的原两点图


这仍然是一个可怕的图表。但一眼看去,使用同样的数据,图中收入的趋势似乎比彭博社的图显示的趋于平缓。


比例

我要讨论的最后一个问题是比例。作者选择去展现过去三十年的数据。那么问题在哪呢?实际上还有其它25年的数据被省略了。


这意味着,如果1972年和2012年的数据都是异常值的话,彭博社的原始图表会发生很大的失真。事实证明,1972年是美国男性收入中位数的最高点,从这个意义下,它确实是一个异常值。


让我们看一下从1947年开始的完整的统计数据:



1947


令人惊奇的是,从19471972年的平均收入呈现平稳地逐年增长。


那么,1972年发生了什么? 布雷顿森林体系和金本位制的结束?我不是一个经济学家,所以就不费劲猜测了。但是,我正给大家展示完整的数据,证明操作这些数字去支持不同的事实是多么简单,而这些事实可能描述了完故事,也可能不是。


现在,这些数据描绘出了一个非常不同的情景。可以看到,在战后如干年数值陡涨,随后就是平台期和下降期,对于各个年龄层来说其对应的时间和比率有所不同。这个时期发生了什么?又是什么引起这些变化?这里很难给出一个宽泛的概括。


同样值得关注的,是25-34这个年龄层的收入差异开始增大,这有可能与服务行业和白领工作的增长有关。


给出一个极端的观点:如果我们想把标题写成美国男性收入在过去的65年持续上涨。我们可以用只有两个点的图形来支持这个观点,就像彭博社的图表。我们只需用19472012这两个点:


1947


看起来非常棒!让我们鼓励一下自己(Let’s pat ourselves on the back)。世界如此美好,万物如此美好。


除了彭博社,我还在的其它很多出版物中看到这类图表,并且他们也不是唯一犯这种错误的。我写这篇文章不是为了特别针对他们,更多的是为了证明:操作数据来描述一个事件来佐证你已存在的观点是非常容易的。


类似的,匮于分析及不完整展示的数据会误导人们得到错误的结论。我已经试图在这里证明了两种情况,当你再看到像链接中彭博社那样的文章,你会更加警惕;并且,当你在利用数据讲故事是,你也会更加谨慎。


原文发布时间为:2015-02-28

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关文章
|
存储 Dragonfly 弹性计算
2023年阿里云服务器2核4G配置收费标准与活动价格参考,价格297.98元1年起
2核4G配置的云服务器通常是普通企业用户的首选配置,2023年新用户租用阿里云轻量应用服务器低至108元首年,2核4G配置目前活动价格仅需297.98元1年起,不过阿里云不同实例类型的2核4G云服务器配置,产品价格也各不相同。而在平时购买和活动期间买价格也是不一样的。本文主要为大家介绍目前阿里云服务器2核4G配置收费标准与活动价格,以供参考。
899 0
2023年阿里云服务器2核4G配置收费标准与活动价格参考,价格297.98元1年起
|
24天前
|
数据采集 人工智能 自然语言处理
2025数字人竞争力榜单发布:实时交互数字人全面进化
在数字经济迅速发展的背景下,2025年中国数字人企业的崛起为各行业带来了新的机遇与挑战。本文将深入分析不同数字人企业的特点与全栈技术的应用,提供选型指南,帮助企业识别合适的合作伙伴,从而提升市场竞争力,实现数字化转型与创新发展。
111 8
|
存储 Kubernetes C++
Kubernetes VS Docker Swarm:哪个容器编排工具更适合你?
当今,容器化技术已成为IT领域的热门话题,而容器编排工具是实现容器自动化部署和管理的关键。本文将比较两种主流的容器编排工具Kubernetes和Docker Swarm,并探讨它们的优缺点,以帮助你选择最适合自己的工具。
|
8月前
|
存储 人工智能 自然语言处理
为什么混合专家模型(MoE)如此高效:从架构原理到技术实现全解析
本文深入探讨了混合专家(MoE)架构在大型语言模型中的应用与技术原理。MoE通过稀疏激活机制,在保持模型高效性的同时实现参数规模的大幅扩展,已成为LLM发展的关键趋势。文章分析了MoE的核心组件,包括专家网络与路由机制,并对比了密集与稀疏MoE的特点。同时,详细介绍了Mixtral、Grok、DBRX和DeepSeek等代表性模型的技术特点及创新。MoE不仅解决了传统模型扩展成本高昂的问题,还展现出专业化与适应性强的优势,未来有望推动AI工具更广泛的应用。
5139 10
为什么混合专家模型(MoE)如此高效:从架构原理到技术实现全解析
|
数据采集 消息中间件 并行计算
进程、线程与协程:并发执行的三种重要概念与应用
进程、线程与协程:并发执行的三种重要概念与应用
452 0
|
缓存 前端开发 JavaScript
前端性能优化:提升网页加载速度的10个技巧
【10月更文挑战第25天】在互联网时代,网页加载速度直接影响用户体验和搜索引擎排名。本文介绍了10个提升网页加载速度的技巧,包括减少HTTP请求、启用压缩、使用CDN、延迟加载非关键资源、优化图片、减少重定向、使用浏览器缓存、优化CSS和JavaScript、异步加载JavaScript以及代码分割。通过这些方法,可以显著提高网页性能,改善用户体验。
2908 5
|
缓存 网络协议
TCP累计确认和延迟确认傻傻分不清?
TCP累计确认和延迟确认傻傻分不清?
1098 1
|
机器学习/深度学习 自然语言处理 算法
社交网络分析2(上):社交网络情感分析的方法、挑战与前沿技术
社交网络分析2(上):社交网络情感分析的方法、挑战与前沿技术
1263 0
社交网络分析2(上):社交网络情感分析的方法、挑战与前沿技术
|
人工智能 算法 安全
全球首位AI程序员诞生:对程序员的影响将会有多大?
全球首位AI程序员的诞生将深远影响程序员行业。自动化代码编写和优化将提升效率,减轻人工负担;AI能进行缺陷检测和错误修复,增强软件质量。AI还能促进知识传承和协作,成为程序员的智能导师。尽管可能影响部分传统编码职位,但也将创造新机遇,推动程序员向更复杂任务转型。随着AI技术发展,未来软件开发将加速自动化,同时也需关注伦理和安全问题。人类与AI的协同将塑造行业新未来!
|
机器学习/深度学习 数据采集 算法
Python基础算法解析:逻辑回归
Python基础算法解析:逻辑回归【2月更文挑战第20天】
466 1
Python基础算法解析:逻辑回归