关于大数据的完整讲解

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
云原生数据库 PolarDB MySQL 版,Serverless 5000PCU 100GB
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 关于大数据的完整讲解

1.什么是大数据


1.1 大数据特征



我们引用了大数据的4V特征


  • Volume 大数据数据量大,数据量单位为T 或者P级


  • Variety 数据类型多,大数据包含多种数据维度 比如 日志、视频、图片


  • Value 价值密度低,商业价值高 比如监控视频,其中关键1-2秒可能具有极高的价值


  • Velocity 要求处理速度块


1.2 大数据的4个关键技术



1.3 ETL/ELT的区别


ETL 包含的过程是 Extract、Transform、Load的缩写


包括了数据抽取 => 转换 => 加载三个过程



在数据源抽取后首先进行转换,然后将转换的结果写入目的地


ETL 包含的过程是 Extract、Load、Transform的缩写


ELT的过程是,在抽取后将结果先写入目的地,然后利用数据库的聚合分析能力或者外部计算框架,如Spark来完成转换


目前数据主流框架是ETL,重抽取和加载,轻转换,搭建的数据平台属于轻量级


ELT架构,在提取完成之后,数据加载会立即开始,更省时,数据变换这个过程根据后续使用需求在 SQL 中进行,而不是在加载阶段


ELT框架的优点就是保留了原始数据,能够将原始数据展现给数据分析人员


ETL相关软件:


  • 商业软件:Informatica PowerCenter、IBM InfoSphere DataStage、Oracle Data Integrator、Microsoft SQL Server Integration Services等


  • 开源软件:Kettle、DataX、Sqoop


1.4 大数据与数据库管理系统


DataBase Management System,数据库管理系统,可以管理多个数据库


目前关系型数据库在DBMS中占据主流地位,常用的关系型数据库有Oracle、MySQL和SQL Server


其中SQL就是关系型数据库的查询语言


SQL是与数据直接打交道的语言,是与前端、后端语言进行交互的“中台”语言


SQL语言特点:


  • 价值大,技术、产品、运营人员都要掌握SQL,使用无处不在


  • 很少变化,SQL语言从诞生到现在,语法很少变化


  • 入门并不难,很多人都会写SQL语句,但是效率差别很大


除了关系型数据库还有文档型数据库MongoDB、键值型数据库Redis、列存储数据库Cassandra等


提到大数据就不得不说Hive


Hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。


Hive与关联型数据库RDBMS相比


不足:


  • 不能像 RDBMS 一般实时响应,Hive 查询延时大


  • 不能像 RDBMS 做事务型查询,Hive 没有事务机制


  • 不能像 RDBMS 做行级别的变更操作(包括插入、更新、删除)


优点:


  • Hive 没有定长的 varchar 这种类型,字符串都是 string


  • Hive 是读时模式,保存表数据时不会对数据进行校验,而在读数据时将校验不符合格式的数据设置为NULL


1.5 OLTP/OLAP


在数据仓库架构中有非常相关的2个概念,一个是OLTP,一个是OLAP



  • OLTP( On-Line Transaction Processing )


联机事务处理,主要是对数据的增删改


记录业务发生,比如购买行为,发生后,要记录是谁在什么时候做了什么事,数据会以增删改的方式在数据库中进行数据的更新处理操作


实时性高、稳定性强,ATM,ERP,CRM,OA等都属于OLTP


  • OLAP( On-Line Analytical Processing )


联机分析处理,主要是对数据的分析查询


当数据积累到一定的程度,需要做总结分析,BI报表=> OLAP


OLTP产生的数据通常在不同的业务系统中


OLAP需要将不同的数据源 => 数据集成 => 数据清洗 => 数据仓库,然后由数据仓库统一提供OLAP分析


2.大数据计算


2.1 大数据计算模式


2.2 Lambda大数据框架



Lambda架构:


Batch Layer(批处理层),对离线的历史数据进行预计算,能让下游进行快速查询。因为基于完整的数据集,准确性能得到保证。可以用Hadoop、Spark 和 Flink 等计算框架

Speed Layer(加速处理层),处理实时的增量数据,加速层的数据不如批处理层完整和准确,但重点在于低延迟。可以用 Spark streaming、Storm 和 Flink 等计框架算

Serving Layer(合并层),将历史数据计算与实时数据计算合并,输出到数据库,供下游分析


2.3 大数据典型技术


  • Hadoop


一个文件系统,外加一个离线处理框架MapReduce,由于提供的上层api不太友好,加上MapReduce 处理框架比较慢,基本上都用作文件系统


  • Spark


本身是一个执行引擎,不保存数据,所以需要外部的文件系统(通常会基于hadoop)提出了内存计算的概念,即尽可能把数据放到内存中,还提供了良好的上层使用接口,包括spl语句(spark sql)处理数据十分方便。相比 Hadoop MapReduce 获得了百倍的性能提升,基本上用它来做离线数据处理


  • Flink


分布式实时计算框架,具有超高的性能,支持Flink流式计算与Storm性能差不多,支持毫秒级计算


Spark 和 Flink的区别



3.大数据实践


本文主要讲解了大数据的概念和基础知识,帮助读者对大数据有一个基本了解。实践部分可以看之前干货:《分布式机器学习原理及实战(Pyspark)

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
3月前
|
机器学习/深度学习 存储 分布式计算
大数据介绍
大数据介绍
60 2
|
SQL 数据采集 算法
大数据到底应该如何学?
大数据到底应该如何学?
97 0
|
SQL 存储 分布式计算
一篇文章让你了解大数据
一篇文章让你了解大数据
一篇文章让你了解大数据
|
大数据
大数据
大数据学习
110 0
|
人工智能 分布式计算 Oracle
大数据浅谈1
小弟不才,针对于大数据入门的一些小总结,希望能共同成长进步,大咖请绕路!!!
174 0
|
人工智能 大数据 物联网
想学大数据,从哪里开始比较好
本人目前从事网站运营方面的工作,懂一丢丢html代码,英语水平为0, 英语目前正在学,兼职学了半年多了,明年准备辞职出来全职学,应该明年在用大半年时间能搞定。英语学好后准备进入大数据行业。 不知道从哪里开始,希望得到一些路线指导。
2043 0
|
分布式计算 数据可视化 大数据