学习中心> 大数据简史> 正文

大数据简史

7课时 |
1349人已学 |
免费
课程介绍

课程大纲

  1. 从结绳记事说起
  2. 赌博催生了概率论
  3. 数据库的起源——打孔卡
  4. 商业智能的诞生
  5. 数据大爆炸
  6. 大数据时代
  7. 大数据分析人才的培养
     

赌博催生了概率论

一、  古代数据分析学科的发展

 随着数字的发展人类生活中对数字的依赖也越来越强。

在17世纪中叶,法国贵族德·美黑写信向当时法国的数学家帕斯卡请教骰子赌博中赌资分配的问题。

之后帕斯卡和数学家费尔马一起研究了德美黑的问题,于是一个新的数学分支概率论登上了历史舞台。

1657年,荷兰著名的天文、物理兼数学家惠更斯写成《论机会游戏的计算》一书,是最早的概率论著作。概率论的第一本专著是1713年问世的雅阁贝努利的《推测术》。

值得一提的是,1642年,帕斯卡制成了世界上第一台进行六位数加减法运算的手摇机械计算机。

 

 在数理统计的发展过程中出现了一个有贡献的人格朗特,格朗特原先是一个服装店的店主,刚开始的时候,只是在店里帮助工作,是一名助手后来子承父业成为了服装店的店主,受到了良好的英文教育。令他成为了一个教育良好的绅士,才能在一些正式场合担任助理。甚至担任过一段时间的大学教授。

 

从1604年开始伦敦教会每周会发布一张死亡通报,欧洲因为饥饿、战争,尤其是黑死病的影响,死亡几率较高。

教会因此在这种情况下发布死亡通报,通报内记录了一周内的死亡和受袭者名单,死者按照死因分类。

 

格朗特根据表推算,不同年龄之下的死亡率不同。

在这种情况下,格朗特首次提出第一个生命表,由生命表他估算出伦敦16岁到56岁的成年男性占伦敦总人数的百分之34。在此过程当中,格朗特还证明了谋杀不是死亡的主要原因。利用数据批判了当时普遍流传的一个谬论,瘟疫总是伴随着新王朝的开始。

此后做大数据的人,也秉承着古人的方式,利用数据对一些已经形成的偏见进行批判和改正。

 

开创性提出了在不确定性条件下做出决策所需要的关键理论概念:抽样、平均数对未来事件的概率的置信程度等等,使得统计分析成为一门科学。值得一提的是,生命表奠定了生存模型的发展,是现代顾客生命周期管理的建模基础。

在对数据的应用当中,古代人也做出很多努力,其中贡献最为突出的人叫斯诺。

当时认为霍乱主要是空气污染造成的认为能像黑死病一样通过空气传播。

 

在某一次伦敦的霍乱爆发后,斯诺通过与当地居民的交流与仔细研究,将污染源锁定在布劳维特大街一台公用抽水机上。

他使用了最有名的一次可视化的图表分析,成功说服了当时的市政府,因为当时政府采取了两项措施,因此无法判断疫情的解决是因为政府阻止了居民从水吧里喝水,还是因为政府喷洒了石灰。

所以当时仍然认为张七是传播霍乱的主要原因。斯诺作为一个数据分析师,没有放弃追求真相,继续进行了数据分析检查档案。

结果发现喝过水之后,无论住处有多远,都有死亡案例。因此排除了霍乱是通过空气传播的可能性。

 

在第二年的3月份,再次查阅关于此次疫情的资料时,斯诺发现疫情的发生是由于一个五个月大的婴儿发病之后拉肚子弄脏了尿布,母亲将尿布洗干净之后,将脏水倒入了污水井中,而污水井就在宽街的水坝旁边,又因为当中的土壤是渗透的,于是找到了霍乱的病因,因此也证明了霍乱是通过水传播的

我的学习进度
请登录后查看您的学习进度!
立即登录
本课程相关云产品