彭友们好,我是你的老彭友。今天在群里看到一个表,真的是太棒了!拿出来分享给大家:
有些时候,想说明一个真理,浪费口舌说那么多都没用,看这个表格就一目了然了。
其实这张图也是我一直说的,数据说话的典型。很可惜,我没找到这个表的来源,要不我得好好感谢感谢作者。
连续与离散
其实数据分析的奥义都在上面那个表里展现的淋漓尽致了。甚至把数据的奥义都展现清楚了。
在《华为数据之道》里有一张图我特别喜欢,就是这个:
现实世界通过IT系统,以业务过程和业务结果数据的形态,映射成了一个数字世界。
现实世界是连续的,我们把业务过程数据和业务结果数据进行量化后,其结果就必然也是连续的。
对了,这里需要给一下连续和离散的定义:
离散变量是指变量值可以按一定顺序一一列举,其数值是在一定区间内是固定的;
连续变量是指在一定区间内可以任意取值的变量,其数值是连续不断的,相邻两个数值可作无限分割,即可取无限个数值。
连续的现实世界量化之后,理解起来比较费劲。不像现实世界,可以用“手感”、“肌肉记忆”、“唯手熟尔”等说不清道不明的方法搞定高难度的事情。
在数据世界,一切都得量化才可以。在现实世界100%投篮命中,可以长期练习。
但是想要用数据思维实现100%投篮命中,那不要太简单了。只需要计算合适的角度,用合适的力量投掷就行。机器人投篮大赛基本上都是100%命中。
也有脑洞特别清秀的,比如Shane Wighton的程序员大佬,做了一个100%命中的篮筐。。。
你无论从哪个位置投篮都能准确地掉进篮筐里。
但是我们的生理结构决定人脑天生会偷懒,CPU高速运转可不是什么好事。所以,我们看到连续的数据第一反应就是怎么把他们分开。
理解一个有限的、离散结果集,比理解一个无限的、连续的数据集要容易的多。而且最好是足够离散,足够有限,最好是就只有两个选择。比如:
这个人是好人 VS 这个人是坏人;
这个东西好吃 VS 这个东西难吃;
爱我 VS 不爱我;
开车比我快的都是SB VS 开车比我慢的都是菜鸟。
这就是为什么最容易火的事情通常都是挑起双方矛盾的话题,因为最容易理解,也方便别人站队。
一旦某件事情出现反转,或者反反转,讨论起来就很费劲,话题自然就延续不下去了。
对数据分析的启示
讨论这些有什么用呢?
很简单,这些有用,有大用!经济学家、社会学家一直都在寻找类似的有足够区分度的样本集。一边是好的,一边是坏的。这样结论就非常非常明显了。
我们再来看看这张表:
脑洞太清秀了有没有?
研究一个病的治愈效果,在社会群体一般怎么做?双盲测试、安慰剂实验呗。
但是这个分析的脑洞就很惊奇了。他把高血压、糖尿病两种病的分析人群选在了服刑人群和社会人群之间做比较。
服刑人群最大的特点是什么?极度的规律和可控性。
社会人群则反之,按时服药简直是要了命了。我感觉我自己从来没有严格遵医嘱吃过药。不是忘吃了,就是间隔时间太长(短)了。
这个人群选的,简直是神来之笔。至于数据,那都是统计之后的结果,不要太简单了。
我之前看过一个二战小故事,差点没把我笑死。说的是一个小岛上有土著居民,没见过高科技。美国大兵在小岛上建了军事基地,运了一队兵在那边。
土著人觉得很奇怪:这帮人天天就在那里跑来跑去,也没见出去打猎,为什么会有大鸟过来给他们投放食物?
等美国大兵撤走了之后,这帮土著人也不打猎去了,天天在机场跑操,期待神明派神鸟(飞机)赐予他们食物。
我只是把这个当笑话看。但是社会学家就像是找到了宝贝一样,因为这个可以用来区分“神创世”和“人创神”两种论调。而且这个区分度太大了好么?
数据重要还是思路重要
好,到这里,基本上就能解答这个问题了:“数据分析,到底是数据重要,还是分析思路重要”?数据当然重要。数据是现实世界投射到数字世界的形式。但是,数据何其多也!现实世界是连续的,投射过去的数据也是连续的,人脑理解起来太费劲了!
想要得到广泛的认同,就必须降维,把连续变成离散,区分度越高越好,离散的值越少越好,最好就是二项分布,是/否,好/坏,讨厌/喜欢,爱/恨。
不要什么中间态,不要什么模棱两可,不要什么不置可否,这些都是影响快速判断的搅屎棍!所以你明白为什么我发言总不太受欢迎了吧?因为我发表言论的时候总喜欢是喜欢找第三选项。我觉二项分布不是世界本来的样子,世界应该是连续的,而不是离散的。可是,我忘记了让人接受第三选项有多难...