大数据的历史变迁 | 学习笔记

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 快速学习 大数据的历史变迁

开发者学堂课程【深入理解数据分析大数据的历史变迁】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/561/detail/7681


大数据的历史变迁


目录

一、大数据的发展

二、问卷调查数据

三、企业运行数据

四、非结构化数据


一、  大数据的发展

大数据本身并不是一个突然出现的概念,它有一个历史变迁的前应后果。

1.大数据的发展—统计学的出现

1663年:英国伦敦 John Graunt 利用统计学建立起对黑死病早期预警系统的理论。

1865年:Richard Millar Devens 第一次将统计学用于商业目的研究。

1880年:美国人口普查局,在1881年雇佣了工程师 Herman Hollerith 设计了名为”Hollerith Tabulating Machine”,使用打孔技术将工作量降低到3个月。他创建的公司就是日后的 IBM

2.大数据的发展—数据储存技术的出现

1926年:发明家 Nikola Tesla Colliers 杂志的采访中预测无线技术会被发明并替代现有电话系统,覆盖全球。

1928年:Fritz Pfleumer 发明了让数据可以被方便的储存起来的磁带技术。

1944年:Fremont Rider 预测如果没有技术手段解决,到2040年耶鲁大学将会有2亿本图书,需要6000英里长的书架。

3.大数据的发展—商业智能的出现

1962: IBM 的研究员 Hans Peter Luhn 定义商业智能为“the ability to apprehend the interrelationships of presented facts in such a way as to guide action towards a desired goal"IBM 的工程师 WilliamC Dersch 发明了“Shoebox Machine”,能一次将16个英文词和数字转换成电子数据。//商业发展到一定程度后,商业智能成为流行的应用。

1964年:业界开始注意到存储日益庞大的数据带来的挑战。//导致大型数据中心出现

4.大数据的发展—大型数据中心的出现

1965年:美国政府 tourism 研发了世界上第一个数据中心磁盘来存储7.42亿报税信息和1.75个指纹。

1970年:IBM 的数学家发表了关系型数据库的技术。//IBM 关系型数据库将现实世界发生的事件通过关系的数据进行存储,存储了大量数据后,少量的计算机已经无法满足庞大的数据量,所以建立的大型的数据存储中心。

1976年:商业企业开始普遍使用Material Requirements Planning(MRP)来管理生产流程,属于计算机首次大规模的商业应用。

1989年:第一次出现“big data”的概念。//大数据的概念是源于英特网的出现。

5.大数据的发展—互联网的出现

1991年:计算机科学家 Tim Berner-lee 发布了 WWW 概念。//英特网的出现让设备相互连接,庞大的数据就从连接中产生,连接的设备越多,产生的数据点就越庞大。互联网的出现直接导致大数据的概念出现。

1996年:在”The Evolution of Storage Systems"书中,RJT Morris and B J Truskowski 认为电子化数据存储开始比磁带更廉价。

1997年:Micheal Lesk 认为12000PB级的数据不是不可能的,而且 WEB 会议每年10倍量级的增加,由于数据不能被分析,因此毫无价值可言。

6.大数据的发展—大数据概念的出现

1999年:大数据的概念出现在“Visually Exploring Gigabyte Datasets in Real Time”的文章中。//首次提出大数据的概念

2000年:Peter Lyman Hal Varian(现在的谷歌首席经济学家)试图量化世界的数字信息量,及它的增长率。得出全世界每年生产的印刷、电影、光学和磁学的内容需要大约15亿千兆字节的存储空间。这相当于每人250MB这一结论。

2001年:Gartner 分析师 Doug Laney 在他的论文中首次定义了大数据的3V:数据容量,速度和类型。//首次提出大数据技术性上的三个特性。发展过后大数据又增加了一个 V 的特性:价值(时效性、真实性)

2005年:评论人士宣布“Web 2”的诞生,即用户生成的网站内容。这通过传统的 HTML 格式网页与后台数据库建立在大量 SQL 集成实现。现在超过550万人已经在使用脸谱网,上传和分享自己的数据。


二、问卷调查数据

1、问卷调查的特点:

有针对性、对某件事有目的的涉及问卷,然后找到调查对象采样后进行询问,并记录回答。

2、问卷调查需要注意的问题

问卷调查的涉及当中问卷问题本身是需要涉及的,不能随意进行询问,它的前后顺序包括某一个问题导致另一个问题逻辑必须要在设计中进行处理。问题本身在询问过程中,问题的涉及本身需要清晰,不能造成对方糊涂的情况。

3、数据收集手段

inter 网没有出现的情况下,通常需要对象面对面进行数据收集,或者向对象发送一个自我填报式的回答。出现inter 网后可以进行网上填报问卷调查来收集数据。

4、问卷设计方法

例如老师让学生做一个评价表,也是一种设计方法。

5、数据处理


三、企业运行数据

1、生活中的数据

员工的培训、工作数据。包括顾客外部关于消费行为,生活习惯,收入数据。

2、常见企业经营数据

有很多关于财务、销售、仓储数据分布在企业各个部门,很多数据在我国没有集中起来使用,仅为某个部门日常工作服务,使用服务效率没有到比较好的模式。

3、经营数据的特点

企业可以用顾客的数据对他们进行划分。

4、常见的分析案例

企业可以通过划分的顾客来了解自己企业经营的产品对哪类顾客有吸引力来进行调整经营策略。


四、非结构化数据

非结构化数据—非结构化数据的种类

1、文本:

计算机的一种文档类型。该类文档主要用于记载和储存文字信息,而不是图像、声音和格式化数据。

2、图片:

图片是指由图形、图像等构成的平面媒体。

3、HTML

超级文本标记语言是标准通用标记语言下的一个应用,也是一种规范,一种标准,它通过标记符号来标记要显示的网页中的各个部分。

4、各类报表:

用表格、图表等格式来动态显示数据,可以用公式表示为:“报表=多样的格式+动态的数据

5、图像:

指各种图形和影像的总称。它为人类构建了一个形象的思维模式,有助于我们学习、思考问题。

6、视频:

泛指将一系列静态影像以电信号的方式加以捕捉、纪录、处理、储存、传送与重现的各种技术。

7.非结构化数据—如何从非结构化数据转换到结构化数据

常见的数据处理方法:

1)实现非结构化数据到半结构化数据转换功能

2)实现半结构化到结构化数据转换功能

3)生成标准结构文件

4)文件模板管理

5)解决源文件与目的表的表对应关系

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
6月前
|
SQL 分布式计算 大数据
Python+大数据学习笔记(一)
Python+大数据学习笔记(一)
76 0
|
6月前
|
大数据 Linux 网络安全
大数据开发工程师基本功修炼之史上最全Linux学习笔记(建议)
大数据开发工程师基本功修炼之史上最全Linux学习笔记(建议)
185 0
|
SQL 分布式计算 运维
开源大数据 OLAP 引擎最佳实践 | 学习笔记(二)
快速学习开源大数据 OLAP 引擎最佳实践
开源大数据 OLAP 引擎最佳实践 | 学习笔记(二)
|
6月前
|
Java 数据库连接 数据库
Java大数据开发工程师__Spring学习笔记(待更新)
Java大数据开发工程师__Spring学习笔记(待更新)
55 1
|
6月前
|
关系型数据库 MySQL 大数据
大数据开发工程师基本功修炼之Linux学习笔记(四)
大数据开发工程师基本功修炼之Linux学习笔记(四)
137 1
|
6月前
|
大数据 Linux 开发工具
大数据开发工程师基本功修炼之Linux学习笔记(三)
大数据开发工程师基本功修炼之Linux学习笔记(三)
103 0
|
6月前
|
大数据 Java Linux
大数据开发工程师基本功修炼之Linux学习笔记(二)
大数据开发工程师基本功修炼之Linux学习笔记(二)
115 0
|
大数据
数据治理专业认证CDMP学习笔记(思维导图与知识点)- 第14章大数据与数据科学篇
数据治理专业认证CDMP学习笔记(思维导图与知识点)- 第14章大数据与数据科学篇
116 0
|
canal 弹性计算 分布式计算
如何将 PolarDB-X 与大数据等系统互通|学习笔记(一)
快速学习如何将 PolarDB-X 与大数据等系统互通
如何将 PolarDB-X 与大数据等系统互通|学习笔记(一)
|
存储 分布式计算 DataWorks
持续定义 SaaS 模式云数据仓库—— MaxCompute 数据的持续保护 | 学习笔记(三)
快速学习持续定义 SaaS 模式云数据仓库—— MaxCompute 数据的持续保护
持续定义 SaaS 模式云数据仓库—— MaxCompute 数据的持续保护 | 学习笔记(三)