什么是好的数据分析?化繁为简的力量

简介: 什么是好的数据分析?化繁为简的力量

彭友们好,我是你的老彭友。今天在群里看到一个表,真的是太棒了!拿出来分享给大家:

有些时候,想说明一个真理,浪费口舌说那么多都没用,看这个表格就一目了然了。

其实这张图也是我一直说的,数据说话的典型。很可惜,我没找到这个表的来源,要不我得好好感谢感谢作者。

连续与离散

其实数据分析的奥义都在上面那个表里展现的淋漓尽致了。甚至把数据的奥义都展现清楚了。

在《华为数据之道》里有一张图我特别喜欢,就是这个:

现实世界通过IT系统,以业务过程和业务结果数据的形态,映射成了一个数字世界。

现实世界是连续的,我们把业务过程数据和业务结果数据进行量化后,其结果就必然也是连续的。

对了,这里需要给一下连续和离散的定义:

离散变量是指变量值可以按一定顺序一一列举,其数值是在一定区间内是固定的;

连续变量是指在一定区间内可以任意取值的变量,其数值是连续不断的,相邻两个数值可作无限分割,即可取无限个数值。

连续的现实世界量化之后,理解起来比较费劲。不像现实世界,可以用“手感”、“肌肉记忆”、“唯手熟尔”等说不清道不明的方法搞定高难度的事情。

在数据世界,一切都得量化才可以。在现实世界100%投篮命中,可以长期练习。

但是想要用数据思维实现100%投篮命中,那不要太简单了。只需要计算合适的角度,用合适的力量投掷就行。机器人投篮大赛基本上都是100%命中。

也有脑洞特别清秀的,比如Shane Wighton的程序员大佬,做了一个100%命中的篮筐。。。

你无论从哪个位置投篮都能准确地掉进篮筐里。

但是我们的生理结构决定人脑天生会偷懒,CPU高速运转可不是什么好事。所以,我们看到连续的数据第一反应就是怎么把他们分开。

理解一个有限的、离散结果集,比理解一个无限的、连续的数据集要容易的多。而且最好是足够离散,足够有限,最好是就只有两个选择。比如:

这个人是好人 VS 这个人是坏人;

这个东西好吃 VS 这个东西难吃;

爱我 VS 不爱我;

开车比我快的都是SB VS 开车比我慢的都是菜鸟。

这就是为什么最容易火的事情通常都是挑起双方矛盾的话题,因为最容易理解,也方便别人站队。

一旦某件事情出现反转,或者反反转,讨论起来就很费劲,话题自然就延续不下去了。

对数据分析的启示

讨论这些有什么用呢?

很简单,这些有用,有大用!经济学家、社会学家一直都在寻找类似的有足够区分度的样本集。一边是好的,一边是坏的。这样结论就非常非常明显了。

我们再来看看这张表:

脑洞太清秀了有没有?

研究一个病的治愈效果,在社会群体一般怎么做?双盲测试、安慰剂实验呗。

但是这个分析的脑洞就很惊奇了。他把高血压、糖尿病两种病的分析人群选在了服刑人群和社会人群之间做比较。

服刑人群最大的特点是什么?极度的规律和可控性。

社会人群则反之,按时服药简直是要了命了。我感觉我自己从来没有严格遵医嘱吃过药。不是忘吃了,就是间隔时间太长(短)了。

这个人群选的,简直是神来之笔。至于数据,那都是统计之后的结果,不要太简单了。

我之前看过一个二战小故事,差点没把我笑死。说的是一个小岛上有土著居民,没见过高科技。美国大兵在小岛上建了军事基地,运了一队兵在那边。

土著人觉得很奇怪:这帮人天天就在那里跑来跑去,也没见出去打猎,为什么会有大鸟过来给他们投放食物?

等美国大兵撤走了之后,这帮土著人也不打猎去了,天天在机场跑操,期待神明派神鸟(飞机)赐予他们食物。

我只是把这个当笑话看。但是社会学家就像是找到了宝贝一样,因为这个可以用来区分“神创世”和“人创神”两种论调。而且这个区分度太大了好么?

数据重要还是思路重要

好,到这里,基本上就能解答这个问题了:“数据分析,到底是数据重要,还是分析思路重要”?数据当然重要。数据是现实世界投射到数字世界的形式。但是,数据何其多也!现实世界是连续的,投射过去的数据也是连续的,人脑理解起来太费劲了!
想要得到广泛的认同,就必须降维,把连续变成离散,区分度越高越好,离散的值越少越好,最好就是二项分布,是/否,好/坏,讨厌/喜欢,爱/恨。
不要什么中间态,不要什么模棱两可,不要什么不置可否,这些都是影响快速判断的搅屎棍!所以你明白为什么我发言总不太受欢迎了吧?因为我发表言论的时候总喜欢是喜欢找第三选项。我觉二项分布不是世界本来的样子,世界应该是连续的,而不是离散的。可是,我忘记了让人接受第三选项有多难...

相关文章
|
8月前
|
机器学习/深度学习 数据可视化 数据挖掘
Python数据分析与数据挖掘:解析数据的力量
Python数据分析与数据挖掘:解析数据的力量
|
机器学习/深度学习 人工智能 分布式计算
后疫情时代,这家老牌数据分析公司想用“好奇心”和分析的力量改变世界
后疫情时代,这家老牌数据分析公司想用“好奇心”和分析的力量改变世界
205 0
|
10天前
|
机器学习/深度学习 数据采集 数据可视化
Python数据分析入门涉及基础如Python语言、数据分析概念及优势。
【7月更文挑战第5天】Python数据分析入门涉及基础如Python语言、数据分析概念及优势。关键工具包括NumPy(数组操作)、Pandas(数据处理)、Matplotlib(绘图)、Seaborn(高级可视化)和Scikit-learn(机器学习)。流程涵盖数据获取、清洗、探索、建模、评估和展示。学习和实践这些将助你有效利用数据。
|
6天前
|
机器学习/深度学习 监控 算法
Python数据分析与机器学习在金融风控中的应用
Python数据分析与机器学习在金融风控中的应用
31 12
|
3天前
|
机器学习/深度学习 数据采集 数据挖掘
解锁 Python 数据分析新境界:Pandas 与 NumPy 高级技巧深度剖析
【7月更文挑战第12天】Python的Pandas和NumPy库助力高效数据处理。Pandas用于数据清洗,如填充缺失值和转换类型;NumPy则擅长数组运算,如元素级加法和矩阵乘法。结合两者,可做复杂数据分析和特征工程,如产品平均销售额计算及销售额标准化。Pandas的时间序列功能,如移动平均计算,进一步增强分析能力。掌握这两者高级技巧,能提升数据分析质量和效率。
17 4
|
4天前
|
机器学习/深度学习 存储 数据可视化
这份Excel+Python飞速搞定数据分析手册,简直可以让Excel飞起来
微软在 UserVoice 上运营着⼀个反馈论坛,每个⼈都可以在这⾥提交新点⼦供他⼈投票。票数最⾼的功能请求是“将 Python 作为Excel 的⼀门脚本语⾔”,其得票数差不多是第⼆名的两倍。尽管⾃2015 年这个点⼦发布以来并没有什么实质性进展,但在 2020 年年末,Python 之⽗ Guido van Rossum 发布推⽂称“退休太无聊了”,他将会加入微软。此事令 Excel ⽤户重燃希望。我不知道他的举动是否影响了 Excel 和 Python 的集成,但我清楚的是,为何⼈们迫切需要结合 Excel 和 Python 的⼒量,⽽你⼜应当如何从今天开始将两者结合起来。总之,这就是本
|
6天前
|
数据采集 机器学习/深度学习 数据挖掘
Python基于波动率模型(ARCH和GARCH)进行股票数据分析项目实战
Python基于波动率模型(ARCH和GARCH)进行股票数据分析项目实战
|
7天前
|
机器学习/深度学习 数据采集 搜索推荐
Python数据分析与机器学习在电子商务推荐系统中的应用
Python数据分析与机器学习在电子商务推荐系统中的应用
24 5
|
7天前
|
机器学习/深度学习 存储 数据可视化
这份Excel+Python飞速搞定数据分析手册,简直可以让Excel飞起来
微软在 UserVoice 上运营着⼀个反馈论坛,每个⼈都可以在这⾥提交新点⼦供他⼈投票。票数最⾼的功能请求是“将 Python 作为Excel 的⼀门脚本语⾔”,其得票数差不多是第⼆名的两倍。尽管⾃2015 年这个点⼦发布以来并没有什么实质性进展,但在 2020 年年末,Python 之⽗ Guido van Rossum 发布推⽂称“退休太无聊了”,他将会加入微软。此事令 Excel ⽤户重燃希望。我不知道他的举动是否影响了 Excel 和 Python 的集成,但我清楚的是,为何⼈们迫切需要结合 Excel 和 Python 的⼒量,⽽你⼜应当如何从今天开始将两者结合起来。总之,这就是本