别被数据分析师骗了!用数据说谎的三种办法

简介:

别被数据分析师骗了!用数据说谎的三种办法

雷锋网按:日前,亚马逊欧洲商业智能部门负责人、资深数据科学家 Karolis Urbonas,在发表了题为《用数据说谎》的博文。文章总结了用数据误导人最常见的三种方法。这三种做法,或许大家在潜意识里都知道,但未必会把它们与“用数据说谎”联系起来。

当然,作者的目的,是希望数据科学、机器学习从业者引以为戒。全文由雷锋网编译,做了不改变原意的删改。

别被数据分析师骗了!用数据说谎的三种办法

Karolis Urbonas

“用数据说话”,这句话常被大家挂在口边。

自大学起,那些希望我们养成批判、逻辑思维的老师,就一遍遍向我们灌输“观点”、“经验主义”与“客观事实”的区别,引导学生如何正确看待“严师出高徒”、“原汤化原食”、“君子坦荡荡,小人长戚戚”、“天将降大任于斯人也,必先……”等等古代“智慧”结晶。

因此在潜意识里,会有人认为,高质量数据代表的就是事实,而基于可靠数据的分析与结论,也应当是客观、理性的。

但往往并不如此。

举个例子,数据分析师会有意无意地有所倾向、偏颇,这很难避免;还会受到来自周围同僚、上司的压力或是期望,又或是项目赶时间。除此之外,数据分析和解读的过程也存在天然的风险,导致最后的“说谎”行为。即便数据科学家的初衷十足高尚,最后的结果也未必能保证真实、客观。

闲话少说,一起来看看用数据说谎的三种方法。

总是用平均数

平均数是有史以来被滥用最严重的参数,到处都有人利用它来创造谎言。

当平均数被提供,请注意:除非数据是标准分布(基本上从来都不是),否则它不能代表任何反映真实情况的有价值信息。这背后的原因很简单,用通俗的话来讲,就是大家常说的“我上司收入 100 万,我收入 20 万,两人的平均收入是 60 万”。在理论上讲,平均数根本无法反映数据的结构分布,而该信息至关重要。平均值并不是一个非常可靠的度量参数,它对边缘数值以及任何偏离标准分布的样本都非常敏感。

统计学家弄明白这一点已经有几十年,但企业、各类机构、政府仍然把平均数作为核心统计参数,并基于它来对涉及十亿、百亿、千亿规模的问题做决策,并且掩盖真实问题。

解决方案是什么呢?

不要用平均数!从今儿起不再用它,并有意识地考虑数据分布,不要弄出来一个只对个别情形有参考意义的统计报告。第一步,可以从使用中位数开始,并且用 top 99%、bottom 1% 数值来对数据进行概括。

平均数作为各门学科的权威参数已经太久,它有太多不加质疑的盲目追随者,我们几乎已经可以把它看做是宗教。这事儿到底是怎么发生的呢?很久很久以前,自然科学的标准分布假设(雷锋网(公众号:雷锋网)注:使用平均数的前提)蔓延到了其他领域,比如商务分析以及其他商业数据应用。这毒害了好几代的数据分析师。

证实性偏见(ConfirmationBias)

这又是一个很经典的误导途径,与心理学紧密相连。它发生于你搞清楚将解决的问题之前,当然,这一步也会影响该效应。数据分析师看待需要解决的问题的方式或角度,能在根本上改变原本的客观立场。一旦牵涉到情感(不论是表达出来的,还是潜在的),显而易见的,该效应会大幅加强。对于该效应,一般很难甄别,这也是区别普通数据分析师和大师级分析师的主要分水岭。

一个十分典型的场景,是在时间不足的情形下被要求完成数据分析。这会产生尽快下结论的压力——通常会有重要决策要根据分析结果来制定。这时会有许多偏见、偏差一股脑儿地涌入项目中,证实性偏见却是数据分析师最心甘情愿上钩的一种。数据分析师随后根据心里已有的假设,忙着在最短时间内回答或解决研究问题。这意味着第一个出现的伪相关就有可能被当做是答案。该情况下,分析师会主动寻找能证实原先假设的证据,而可能对其它证据视而不见。这便是“用数据来配合假设”

这发生于数据分析师先入为主,认定该问题有一个“正确”的时候。当分析师有意寻找符合该假设的证据,该偏见便成功地把分析过程引到歧路。随后,分析师对数据的压缩、调整,仅是为了贴合与假设一致的结论。这里,非常重要的措施,是在一开始就定义严格的研究要求,并收集支持正反两面结论的数据和证据。

数据科学家对于在数据中找出某种模式、合理解释,常常会心痒难耐。这时,他们很可能会忽视一个事实:并没有足够的数据来下结论、或回答问题。后者是完全正常的。这时候,也可能问题本身需要重新定义。

并不存在的模式

别被数据分析师骗了!用数据说谎的三种办法

人脑是如此善于在混乱中发现模式或图案——有时,它们开始发现并不存在的模式。对于数据科学家而言,这是非常致命的。许多公司雇佣数据分析师就是为了发现模式,因而,发现的模式越多,证明该分析师的水平越高、洞察力非同一般,因为他看到了别人都看不到的东西。这类建立在谬误之上的成功,导致许多工作被聚焦于发现模式、分段以及“非同寻常的东西”。当然,许多时候这些都是正常存在的,真实数据中也会有许多噪音。

这就导致了很尴尬的局面——数据分析师“发现”了原本并不存在的模式,企业根据该结论做决策,然后这一决策影响了现实人群,竟然迫使该模式真的出现。简直是神奇。举个非常简单的例子:寻找消费者细分市场,然后试图把他们从一个市场区间“转”到另一个。当某细分市场被企业营销部门瞄准,想要把他们推向一个其实并不存在的区间,该神奇的现象就会发生,发挥现实影响。但是,这种事的风险很大,并且容易导向一系列昂贵的错误决策。

小结

这当然不是一个完整的“用数据说谎”列表。如要彻底学习,你应该学习心理学理论中其它能影响你的主观判断以及洞察力的认知偏差。 以上是最常见的数据分析陷阱,我看到许多分析师不小心掉进去,并非故意的制造出数据“谎言”而不是寻找真实情况。客观并不是一个容易实现的目标,它需要许多自律。

最成功的数据科学家,会把非常非常多的注意力放在提防这些偏见、偏差上,并对它们所能导致的这些谎言保持高度警觉。





本文作者:三川
本文转自雷锋网禁止二次转载, 原文链接
目录
相关文章
|
20天前
|
机器学习/深度学习 数据可视化 数据挖掘
Python跳水:探索数据分析的深渊
Python跳水:探索数据分析的深渊
22 0
|
15天前
|
机器学习/深度学习 数据采集 算法
Python用逻辑回归、决策树、SVM、XGBoost 算法机器学习预测用户信贷行为数据分析报告
Python用逻辑回归、决策树、SVM、XGBoost 算法机器学习预测用户信贷行为数据分析报告
|
2天前
|
数据采集 数据可视化 数据挖掘
如何利用Python中的Pandas库进行数据分析和可视化
Python的Pandas库是一种功能强大的工具,可以用于数据分析和处理。本文将介绍如何使用Pandas库进行数据分析和可视化,包括数据导入、清洗、转换以及基本的统计分析和图表绘制。通过学习本文,读者将能够掌握利用Python中的Pandas库进行高效数据处理和可视化的技能。
|
4天前
|
机器学习/深度学习 数据可视化 算法
使用Python进行数据分析的5个必备技巧
【5月更文挑战第9天】本文介绍了Python数据分析的五个关键技巧:1) 使用Pandas进行数据处理和清洗;2) 利用NumPy进行高效数值计算;3) 通过Matplotlib和Seaborn创建可视化图表;4) 使用Scikit-learn执行机器学习任务;5) 在Jupyter Notebook中进行交互式分析和文档分享。这些技巧能提升数据分析的效率和准确性。
|
5天前
|
数据采集 数据可视化 数据挖掘
Python 与 PySpark数据分析实战指南:解锁数据洞见
Python 与 PySpark数据分析实战指南:解锁数据洞见
|
7天前
|
机器学习/深度学习 运维 算法
Python数据分析中的异常检测与处理方法
在Python数据分析中,异常数据是一个常见但又十分重要的问题。本文将介绍几种常见的异常检测与处理方法,包括基于统计学方法、机器学习方法以及深度学习方法。通过对异常数据的有效检测与处理,可以提高数据分析的准确性和可信度,从而更好地指导业务决策。
|
8天前
|
数据采集 数据可视化 数据挖掘
Python在数据分析中的强大应用
【5月更文挑战第5天】Python在数据驱动时代成为数据分析师首选工具,得益于其丰富的数据科学库(如NumPy、Pandas、Matplotlib、Seaborn和SciPy)。这些库支持数据清洗、探索、建模和可视化。Python在数据清洗、文本分析、Web数据抓取和大数据处理等方面有广泛应用,并因其易学性、强大社区和广泛适用性而备受青睐。未来,Python在数据分析领域的角色将更加重要。
|
13天前
|
机器学习/深度学习 算法 数据挖掘
【Python机器学习专栏】金融数据分析中的机器学习应用
【4月更文挑战第30天】本文探讨了机器学习在金融数据分析中的应用,如股价预测、信用评分、欺诈检测、算法交易和风险管理,并以Python为例展示了如何进行股价预测。通过使用机器学习模型,金融机构能更准确地评估风险、识别欺诈行为并优化交易策略。Python结合scikit-learn库简化了数据分析过程,助力金融从业者提高决策效率。随着技术发展,机器学习在金融领域的影响力将持续增强。
|
13天前
|
数据采集 SQL 数据挖掘
Python数据分析中的Pandas库应用指南
在数据科学和分析领域,Python语言已经成为了一种非常流行的工具。本文将介绍Python中的Pandas库,该库提供了强大的数据结构和数据分析工具,使得数据处理变得更加简单高效。通过详细的示例和应用指南,读者将了解到如何使用Pandas库进行数据加载、清洗、转换和分析,从而提升数据处理的效率和准确性。
|
14天前
|
机器学习/深度学习 数据采集 数据可视化
Python在数据分析领域的应用研究
Python在数据分析领域的应用研究
26 0