开发者学堂课程【深入理解数据分析:大数据的历史变迁】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/561/detail/7681
大数据的历史变迁
目录
一、大数据的发展
二、问卷调查数据
三、企业运行数据
四、非结构化数据
一、 大数据的发展
大数据本身并不是一个突然出现的概念,它有一个历史变迁的前应后果。
1.大数据的发展—统计学的出现
1663年:英国伦敦 John Graunt 利用统计学建立起对黑死病早期预警系统的理论。
1865年:Richard Millar Devens 第一次将统计学用于商业目的研究。
1880年:美国人口普查局,在1881年雇佣了工程师 Herman Hollerith 设计了名为”Hollerith Tabulating Machine”,使用打孔技术将工作量降低到3个月。他创建的公司就是日后的 IBM。
2.大数据的发展—数据储存技术的出现
1926年:发明家 Nikola Tesla 在 Colliers 杂志的采访中预测无线技术会被发明并替代现有电话系统,覆盖全球。
1928年:Fritz Pfleumer 发明了让数据可以被方便的储存起来的磁带技术。
1944年:Fremont Rider 预测如果没有技术手段解决,到2040年耶鲁大学将会有2亿本图书,需要6000英里长的书架。
3.大数据的发展—商业智能的出现
1962年: IBM 的研究员 Hans Peter Luhn 定义商业智能为“the ability to apprehend the interrelationships of presented facts in such a way as to guide action towards a desired goal"。IBM 的工程师 WilliamC Dersch 发明了“Shoebox Machine”,能一次将16个英文词和数字转换成电子数据。//商业发展到一定程度后,商业智能成为流行的应用。
1964年:业界开始注意到存储日益庞大的数据带来的挑战。//导致大型数据中心出现
4.大数据的发展—大型数据中心的出现
1965年:美国政府 tourism 研发了世界上第一个数据中心磁盘来存储7.42亿报税信息和1.75个指纹。
1970年:IBM 的数学家发表了“关系型数据库”的技术。//IBM 关系型数据库将现实世界发生的事件通过关系的数据进行存储,存储了大量数据后,少量的计算机已经无法满足庞大的数据量,所以建立的大型的数据存储中心。
1976年:商业企业开始普遍使用Material Requirements Planning(MRP)来管理生产流程,属于计算机首次大规模的商业应用。
1989年:第一次出现“big data”的概念。//大数据的概念是源于英特网的出现。
5.大数据的发展—互联网的出现
1991年:计算机科学家 Tim Berner-lee 发布了 WWW 概念。//英特网的出现让设备相互连接,庞大的数据就从连接中产生,连接的设备越多,产生的数据点就越庞大。互联网的出现直接导致大数据的概念出现。
1996年:在”The Evolution of Storage Systems"书中,RJT Morris and B J Truskowski 认为电子化数据存储开始比磁带更廉价。
1997年:Micheal Lesk 认为12000PB级的数据不是不可能的,而且 WEB 会议每年10倍量级的增加,由于数据不能被分析,因此毫无价值可言。
6.大数据的发展—大数据概念的出现
1999年:大数据的概念出现在“Visually Exploring Gigabyte Datasets in Real Time”的文章中。//首次提出大数据的概念
2000年:Peter Lyman 和 Hal Varian(现在的谷歌首席经济学家)试图量化世界的数字信息量,及它的增长率。得出“全世界每年生产的印刷、电影、光学和磁学的内容需要大约15亿千兆字节的存储空间。这相当于每人250MB。“这一结论。
2001年:Gartner 分析师 Doug Laney 在他的论文中首次定义了大数据的3V:数据容量,速度和类型。//首次提出大数据技术性上的三个特性。发展过后大数据又增加了一个 V 的特性:价值(时效性、真实性)
2005年:评论人士宣布“Web 2”的诞生,即用户生成的网站内容。这通过传统的 HTML 格式网页与后台数据库建立在大量 SQL 集成实现。现在超过550万人已经在使用脸谱网,上传和分享自己的数据。
二、问卷调查数据
1、问卷调查的特点:
有针对性、对某件事有目的的涉及问卷,然后找到调查对象采样后进行询问,并记录回答。
2、问卷调查需要注意的问题
问卷调查的涉及当中问卷问题本身是需要涉及的,不能随意进行询问,它的前后顺序包括某一个问题导致另一个问题逻辑必须要在设计中进行处理。问题本身在询问过程中,问题的涉及本身需要清晰,不能造成对方糊涂的情况。
3、数据收集手段
在 inter 网没有出现的情况下,通常需要对象面对面进行数据收集,或者向对象发送一个自我填报式的回答。出现inter 网后可以进行网上填报问卷调查来收集数据。
4、问卷设计方法
例如老师让学生做一个评价表,也是一种设计方法。
5、数据处理
三、企业运行数据
1、生活中的数据
员工的培训、工作数据。包括顾客外部关于消费行为,生活习惯,收入数据。
2、常见企业经营数据
有很多关于财务、销售、仓储数据分布在企业各个部门,很多数据在我国没有集中起来使用,仅为某个部门日常工作服务,使用服务效率没有到比较好的模式。
3、经营数据的特点
企业可以用顾客的数据对他们进行划分。
4、常见的分析案例
企业可以通过划分的顾客来了解自己企业经营的产品对哪类顾客有吸引力来进行调整经营策略。
四、非结构化数据
非结构化数据—非结构化数据的种类
1、文本:
计算机的一种文档类型。该类文档主要用于记载和储存文字信息,而不是图像、声音和格式化数据。
2、图片:
图片是指由图形、图像等构成的平面媒体。
3、HTML:
超级文本标记语言是标准通用标记语言下的一个应用,也是一种规范,一种标准,它通过标记符号来标记要显示的网页中的各个部分。
4、各类报表:
用表格、图表等格式来动态显示数据,可以用公式表示为:“报表=多样的格式+动态的数据”。
5、图像:
指各种图形和影像的总称。它为人类构建了一个形象的思维模式,有助于我们学习、思考问题。
6、视频:
泛指将一系列静态影像以电信号的方式加以捕捉、纪录、处理、储存、传送与重现的各种技术。
7.非结构化数据—如何从非结构化数据转换到结构化数据
常见的数据处理方法:
(1)实现非结构化数据到半结构化数据转换功能
(2)实现半结构化到结构化数据转换功能
(3)生成标准结构文件
(4)文件模板管理
(5)解决源文件与目的表的表对应关系