大数据技术引论(一)|学习笔记

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 快速学习大数据技术引论(一)

开发者学堂课程【高校精品课-北京理工大学-大数据技术导论:大数据技术引论(一)】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/857/detail/14195


大数据技术引论(一)

 

内容介绍:

一、 课程概况

二、大数据时代背景

 

一、课程概况

大数据技术导论这门课程的概况是以大数据处理技术为平台,介绍涵盖数据采集、数据处理、数据分析等全过程的大数据处理知识,课程内容包括数据采集、大数据组织与管理、大数据处理技术、大数据分析、数据安全、数据可视化、大数据应用等

首先介绍大数据技术导论的引用部分,包括三个知识点,第一个是大数据时代背景,第二个是大数据应用价值及大数据基本概念。

 

二、大数据时代背景

1、工业革命的变革历程

首先看一下工业革命的变革历程,我们一共经历了四次工业革命历程,第一次工业革命是17-18世纪,这个世纪随着蒸汽机的使用,进入了蒸汽机时代,大大推动了机械工业的快速发展;第二次工业革命是19-20世纪初,在这次工业革命中随着流水线作业和电力的应用,进入了电气时代,在这个时代极大的提高了企业的自动化水平;第三次工业革命主要是发生在20世纪,这一次工业革命与我们计算机密切相关联,随着半导体技术和计算机软硬件技术的快速发展,人类社会进入了信息化时代,在这个时代极大的推动了企业的转型升级;第四次工业革命就是大数据时代,就是和我们大数据密切相关联,主要是随着21世纪以来,包括互联网、云计算、大数据技术的快速发展,人类社会进入了大数据时代。

 图片199.png

2、信息技术社会正在经历从 IT 时代到 DT 时代的转变
经过40年来的快速发展,信息技术社会的演进经历了五大形态,第一个社会形态是IT信息时代,这个时代是上世纪80年代,PC的快速普及,信息化成为时代主题;第二个社会形态是互联网时代,上世纪90年代,通信技术和互联网技术迅猛发展,互联网信息共享成为时代主题;第三个社会形态是移动互联网时代,21世纪前十年,随着智能手机爆发,信息个性化出现,互联网+成为时代主题;第四个社会形态是大数据时代,在2012年随着大数据时代已经降临,我们人类社会方方面面的决策将日益基于数据和分析而作出,将来我们的信息技术时代可能进入 AI 时代也可能进入IOT时代,在大数据时代出现以来后面形态的划分可能不是特别层次清晰,体现出四浪叠加包括大数据、人工智能、物联网以及5G,在这个时代还体现了三要素,包括物联网、云计算以及大数据,如果说物联网是生产关系的话,那么云计算一定是生产力,而我们的大数据是生产资料,从这关系来看大数据在信息技术社会当中起到深重的作用。

 图片198.png

3、大数据产业对国民经济的重要支撑作用
有两组数据,第一组数据是从狭义大数据产值口径来看,所谓狭义大概包括专门大数据的软件、硬件及服务,大致在2013年时市场份额达到了300亿美元,从现在来看狭义大数据产值口径规模更大。

图片197.png另一种是从广义的大数据应用于各个行业来看,在各个国家包括欧盟、美国、英国、中国大概占到国民经济帧数的2%,所以说大数据无论从狭义还是广义来讲对国民经济的支撑作用十分显著,因此各国政府都高度重视大数据,纷纷推出各自的大数据战略,包括美国、欧盟,他们从推进数据开放、支持技术创新、打浩协作环境等方面多措并举,促进大数据快速发展,美国主要分成三步走,包括做强、做大以及注重隐私保护,从美国推进三步走战略之后各国紧随跟进包括欧盟、英国、日本、澳大利亚等等。

 图片196.png

我们国家也十分重视大数据战略的发展,从2015年开始到十八届五中全会提出了实施国家大数据发展战略,中国的大数据战略主要包括云计算与大数据重点专项、政务信息系统整合共享、人工智能重人工程以及人数据重人工程,这四个大数据战略决定了整个中国大数据的推进情况。

 图片195.png

3、大数据产业的快速发展对人才培养提出了新需求

在2017年,2018年华为和中国软件行业协会联合推出了中国ICT人才生态白皮书,在书中指出,2017年大数据市场规模为234亿,2020年达到578亿,2017年大数据领域人才需求缺口126万,2020年257万人,所以说我们的产业对大数据人才需求大。

5、小结

从工业革命历程、信息技术社会形态、大数据对国民经济的支撑作用、大数据发展战略、大数据人才需求,这五方面介绍了大数据的时代背景。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
2月前
|
存储 机器学习/深度学习 SQL
大数据处理与分析技术
大数据处理与分析技术
139 2
|
2月前
|
存储 分布式计算 NoSQL
【赵渝强老师】大数据技术的理论基础
本文介绍了大数据平台的核心思想,包括Google的三篇重要论文:Google文件系统(GFS)、MapReduce分布式计算模型和BigTable大表。这些论文奠定了大数据生态圈的技术基础,进而发展出了Hadoop、Spark和Flink等生态系统。文章详细解释了GFS的架构、MapReduce的计算过程以及BigTable的思想和HBase的实现。
104 0
|
15天前
|
分布式计算 大数据 数据处理
技术评测:MaxCompute MaxFrame——阿里云自研分布式计算框架的Python编程接口
随着大数据和人工智能技术的发展,数据处理的需求日益增长。阿里云推出的MaxCompute MaxFrame(简称“MaxFrame”)是一个专为Python开发者设计的分布式计算框架,它不仅支持Python编程接口,还能直接利用MaxCompute的云原生大数据计算资源和服务。本文将通过一系列最佳实践测评,探讨MaxFrame在分布式Pandas处理以及大语言模型数据处理场景中的表现,并分析其在实际工作中的应用潜力。
51 2
|
29天前
|
SQL 运维 大数据
轻量级的大数据处理技术
现代大数据应用架构中,数据中心作为核心,连接数据源与应用,承担着数据处理与服务的重要角色。然而,随着数据量的激增,数据中心面临运维复杂、体系封闭及应用间耦合性高等挑战。为缓解这些问题,一种轻量级的解决方案——esProc SPL应运而生。esProc SPL通过集成性、开放性、高性能、数据路由和敏捷性等特性,有效解决了现有架构的不足,实现了灵活高效的数据处理,特别适用于应用端的前置计算,降低了整体成本和复杂度。
|
2月前
|
机器学习/深度学习 存储 大数据
在大数据时代,高维数据处理成为难题,主成分分析(PCA)作为一种有效的数据降维技术,通过线性变换将数据投影到新的坐标系
在大数据时代,高维数据处理成为难题,主成分分析(PCA)作为一种有效的数据降维技术,通过线性变换将数据投影到新的坐标系,保留最大方差信息,实现数据压缩、去噪及可视化。本文详解PCA原理、步骤及其Python实现,探讨其在图像压缩、特征提取等领域的应用,并指出使用时的注意事项,旨在帮助读者掌握这一强大工具。
92 4
|
2月前
|
机器学习/深度学习 存储 大数据
云计算与大数据技术的融合应用
云计算与大数据技术的融合应用
|
2月前
|
SQL 存储 大数据
单机顶集群的大数据技术来了
大数据时代,分布式数仓如MPP成为热门技术,但其高昂的成本让人望而却步。对于多数任务,数据量并未达到PB级,单体数据库即可胜任。然而,由于SQL语法的局限性和计算任务的复杂性,分布式解决方案显得更为必要。esProc SPL作为一种开源轻量级计算引擎,通过高效的算法和存储机制,实现了单机性能超越集群的效果,为低成本、高效能的数据处理提供了新选择。
|
2月前
|
SQL 存储 算法
比 SQL 快出数量级的大数据计算技术
SQL 是大数据计算中最常用的工具,但在实际应用中,SQL 经常跑得很慢,浪费大量硬件资源。例如,某银行的反洗钱计算在 11 节点的 Vertica 集群上跑了 1.5 小时,而用 SPL 重写后,单机只需 26 秒。类似地,电商漏斗运算和时空碰撞任务在使用 SPL 后,性能也大幅提升。这是因为 SQL 无法写出低复杂度的算法,而 SPL 提供了更强大的数据类型和基础运算,能够实现高效计算。
|
2月前
|
存储 大数据 定位技术
大数据 数据索引技术
【10月更文挑战第26天】
64 3
|
2月前
|
存储 大数据 OLAP
大数据数据分区技术
【10月更文挑战第26天】
81 2