什么是好的数据分析?化繁为简的力量

简介: 什么是好的数据分析?化繁为简的力量

彭友们好,我是你的老彭友。今天在群里看到一个表,真的是太棒了!拿出来分享给大家:

有些时候,想说明一个真理,浪费口舌说那么多都没用,看这个表格就一目了然了。

其实这张图也是我一直说的,数据说话的典型。很可惜,我没找到这个表的来源,要不我得好好感谢感谢作者。

连续与离散

其实数据分析的奥义都在上面那个表里展现的淋漓尽致了。甚至把数据的奥义都展现清楚了。

在《华为数据之道》里有一张图我特别喜欢,就是这个:

现实世界通过IT系统,以业务过程和业务结果数据的形态,映射成了一个数字世界。

现实世界是连续的,我们把业务过程数据和业务结果数据进行量化后,其结果就必然也是连续的。

对了,这里需要给一下连续和离散的定义:

离散变量是指变量值可以按一定顺序一一列举,其数值是在一定区间内是固定的;

连续变量是指在一定区间内可以任意取值的变量,其数值是连续不断的,相邻两个数值可作无限分割,即可取无限个数值。

连续的现实世界量化之后,理解起来比较费劲。不像现实世界,可以用“手感”、“肌肉记忆”、“唯手熟尔”等说不清道不明的方法搞定高难度的事情。

在数据世界,一切都得量化才可以。在现实世界100%投篮命中,可以长期练习。

但是想要用数据思维实现100%投篮命中,那不要太简单了。只需要计算合适的角度,用合适的力量投掷就行。机器人投篮大赛基本上都是100%命中。

也有脑洞特别清秀的,比如Shane Wighton的程序员大佬,做了一个100%命中的篮筐。。。

你无论从哪个位置投篮都能准确地掉进篮筐里。

但是我们的生理结构决定人脑天生会偷懒,CPU高速运转可不是什么好事。所以,我们看到连续的数据第一反应就是怎么把他们分开。

理解一个有限的、离散结果集,比理解一个无限的、连续的数据集要容易的多。而且最好是足够离散,足够有限,最好是就只有两个选择。比如:

这个人是好人 VS 这个人是坏人;

这个东西好吃 VS 这个东西难吃;

爱我 VS 不爱我;

开车比我快的都是SB VS 开车比我慢的都是菜鸟。

这就是为什么最容易火的事情通常都是挑起双方矛盾的话题,因为最容易理解,也方便别人站队。

一旦某件事情出现反转,或者反反转,讨论起来就很费劲,话题自然就延续不下去了。

对数据分析的启示

讨论这些有什么用呢?

很简单,这些有用,有大用!经济学家、社会学家一直都在寻找类似的有足够区分度的样本集。一边是好的,一边是坏的。这样结论就非常非常明显了。

我们再来看看这张表:

脑洞太清秀了有没有?

研究一个病的治愈效果,在社会群体一般怎么做?双盲测试、安慰剂实验呗。

但是这个分析的脑洞就很惊奇了。他把高血压、糖尿病两种病的分析人群选在了服刑人群和社会人群之间做比较。

服刑人群最大的特点是什么?极度的规律和可控性。

社会人群则反之,按时服药简直是要了命了。我感觉我自己从来没有严格遵医嘱吃过药。不是忘吃了,就是间隔时间太长(短)了。

这个人群选的,简直是神来之笔。至于数据,那都是统计之后的结果,不要太简单了。

我之前看过一个二战小故事,差点没把我笑死。说的是一个小岛上有土著居民,没见过高科技。美国大兵在小岛上建了军事基地,运了一队兵在那边。

土著人觉得很奇怪:这帮人天天就在那里跑来跑去,也没见出去打猎,为什么会有大鸟过来给他们投放食物?

等美国大兵撤走了之后,这帮土著人也不打猎去了,天天在机场跑操,期待神明派神鸟(飞机)赐予他们食物。

我只是把这个当笑话看。但是社会学家就像是找到了宝贝一样,因为这个可以用来区分“神创世”和“人创神”两种论调。而且这个区分度太大了好么?

数据重要还是思路重要

好,到这里,基本上就能解答这个问题了:“数据分析,到底是数据重要,还是分析思路重要”?数据当然重要。数据是现实世界投射到数字世界的形式。但是,数据何其多也!现实世界是连续的,投射过去的数据也是连续的,人脑理解起来太费劲了!
想要得到广泛的认同,就必须降维,把连续变成离散,区分度越高越好,离散的值越少越好,最好就是二项分布,是/否,好/坏,讨厌/喜欢,爱/恨。
不要什么中间态,不要什么模棱两可,不要什么不置可否,这些都是影响快速判断的搅屎棍!所以你明白为什么我发言总不太受欢迎了吧?因为我发表言论的时候总喜欢是喜欢找第三选项。我觉二项分布不是世界本来的样子,世界应该是连续的,而不是离散的。可是,我忘记了让人接受第三选项有多难...

相关文章
|
机器学习/深度学习 数据可视化 数据挖掘
Python数据分析与数据挖掘:解析数据的力量
Python数据分析与数据挖掘:解析数据的力量
|
机器学习/深度学习 人工智能 分布式计算
后疫情时代,这家老牌数据分析公司想用“好奇心”和分析的力量改变世界
后疫情时代,这家老牌数据分析公司想用“好奇心”和分析的力量改变世界
215 0
|
3月前
|
数据采集 数据可视化 数据挖掘
数据分析大神养成记:Python+Pandas+Matplotlib助你飞跃!
在数字化时代,数据分析至关重要,而Python凭借其强大的数据处理能力和丰富的库支持,已成为该领域的首选工具。Python作为基石,提供简洁语法和全面功能,适用于从数据预处理到高级分析的各种任务。Pandas库则像是神兵利器,其DataFrame结构让表格型数据的处理变得简单高效,支持数据的增删改查及复杂变换。配合Matplotlib这一数据可视化的魔法棒,能以直观图表展现数据分析结果。掌握这三大神器,你也能成为数据分析领域的高手!
79 2
|
3月前
|
机器学习/深度学习 数据采集 数据可视化
基于爬虫和机器学习的招聘数据分析与可视化系统,python django框架,前端bootstrap,机器学习有八种带有可视化大屏和后台
本文介绍了一个基于Python Django框架和Bootstrap前端技术,集成了机器学习算法和数据可视化的招聘数据分析与可视化系统,该系统通过爬虫技术获取职位信息,并使用多种机器学习模型进行薪资预测、职位匹配和趋势分析,提供了一个直观的可视化大屏和后台管理系统,以优化招聘策略并提升决策质量。
179 4
|
3月前
|
机器学习/深度学习 算法 数据挖掘
2023 年第二届钉钉杯大学生大数据挑战赛初赛 初赛 A:智能手机用户监测数据分析 问题二分类与回归问题Python代码分析
本文介绍了2023年第二届钉钉杯大学生大数据挑战赛初赛A题的Python代码分析,涉及智能手机用户监测数据分析中的聚类分析和APP使用情况的分类与回归问题。
84 0
2023 年第二届钉钉杯大学生大数据挑战赛初赛 初赛 A:智能手机用户监测数据分析 问题二分类与回归问题Python代码分析
|
11天前
|
SQL 数据挖掘 Python
数据分析编程:SQL,Python or SPL?
数据分析编程用什么,SQL、python or SPL?话不多说,直接上代码,对比明显,明眼人一看就明了:本案例涵盖五个数据分析任务:1) 计算用户会话次数;2) 球员连续得分分析;3) 连续三天活跃用户数统计;4) 新用户次日留存率计算;5) 股价涨跌幅分析。每个任务基于相应数据表进行处理和计算。
|
1月前
|
机器学习/深度学习 数据采集 数据可视化
数据分析之旅:用Python探索世界
数据分析之旅:用Python探索世界
28 2
|
2月前
|
数据采集 数据可视化 数据挖掘
数据分析大神养成记:Python+Pandas+Matplotlib助你飞跃!
【9月更文挑战第2天】数据分析大神养成记:Python+Pandas+Matplotlib助你飞跃!
57 5
|
3月前
|
供应链 数据可视化 数据挖掘
【2023年第十一届泰迪杯数据挖掘挑战赛】B题:产品订单的数据分析与需求预测 建模及python代码详解 问题一
本文详细介绍了第十一届泰迪杯数据挖掘挑战赛B题的解决方案,涵盖了对产品订单数据的深入分析、多种因素对需求量影响的探讨,并建立了数学模型进行未来需求量的预测,同时提供了Python代码实现和结果可视化的方法。
125 3
【2023年第十一届泰迪杯数据挖掘挑战赛】B题:产品订单的数据分析与需求预测 建模及python代码详解 问题一