数据湖大数据处理之Lambda架构|学习笔记

简介: 快速学习数据湖大数据处理之Lambda架构

开发者学堂课程【Cassandra数据库入门与实战数据湖大数据处理之Lambda架构】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/784


数据湖大数据处理之Lambda架构

 

内容简介:

一、大数据 数据湖和Lambda架构简介

二、Apache cassandra, Sparkpulsarlambda实现

三、示例程序介绍

四、实例

 

一、大数据 数据湖和Lambda架构简介

以下是大数据的5v定义

 James Dixon是第一个提出数据湖概念的人。他们对数据湖和自然的由水构成的湖类比。

当讨论数据服务的时候,有两个层面的意思。第一个是静态的含义,仅仅是指一个企业的所有数据的集合,反应了大数据的每个方面,例如数据来源的多样性,数据格式的多样性,巨量的数据以及快速的数据生成等,以上是典型的大数据的特性。

最重要的一点,数据湖也是一个较为动态从端到端的处理框架。

例如从原始数据开始,到技能数据的处理,将其存储到企业的中心数据湖里做进一步的分析处理,产生的商业决策信息可以供下游系统利用。

例如数据可视化,商业智能,数据科学,人工智能,深度学习。从整个数据的生成,到最后数据被系统利用也是企业数据湖组成的关键部分。

 快数据更多的在于整个数据的分析处理提取,最后生成数据决策信息的整个过程。传统的数据仓在当下的商业环境下已经完全不能适用。

当下商业环境不仅强调数据要快,而且要大。当把传统的处理数据方式和当下的处理数据方式整合在一起来处理大数据的环境有不同的数据架构,lambda架构是较为通用的架构。

Lambda架构主要分为三个层面,批处理层,速处理层,服务层。

批处理层和传统的批处理架构基本相似,速处理层相当于当下实用的流处理,对实时数据的分析,处理,挖掘,但教育批处理层速处理层不能较大范围的处理历史数据,所以速处理层更多的是分析最近的数据。

服务层包括许多数据视图,这些数据视图可以从批处理层来,也可以从实时处理层来。

数据视图生成的目的是为了加快速度,这些数据视图相当于已经被处理完成,不必再做多余的计算,只需要简单的查询来获取所需要的信息。

整个lambda结构可以在企业数据湖环境里解决高容错低延迟问题,帮助数据进行线性扩展,当有新的技术和服务出现时可以被轻易容纳。

 

二、Apache cassandra, Sparkpulsarlambda实现

 

Apache Cassandra

 作为数据存储层,主要应对批处理层和服务处理层。

分布式,非主从结构,宽列,开源NoSQL数据库,因为其没有主从结构,所以扩展性极强。

而且每个数据会有多个备份,意味着如果一个主数据断层,还有其他备份数据来满足要求。如果系统维护好,可以做到零当机。Cassandra对于多数据中心的无缝数据复制,这是很多数据库没有的功能。Cassandra是能和云进行配合的数据库,可以轻松支持混合及多云的部署。

 

Apache spark

 定义spark为一种用于大规模数据处理的统一分析引擎。和hadoop性能相似,也是用于大规模数据处理的分析。但是haddoop本质上是一个批处理模式,无法对实时的数据进行处理,需要利用其他技术来辅助其分析。它并不是一个真正意义上的数据库,所以每次进行读写时,会有较多磁盘读写操作,由此可见其性能不够理想。但可以将spark理解为一个内存化的hadoop,显而易见的优势就是其比hadoop快速。

同时spark可以处理不同类型的数据,也有自己的流处理模块,但不是一个实际的流数据处理。Spark还支持机器学习,图形数据库,SQL语言。由此可见,spark是一个性能非常强大的分析引擎。

 

Apache Kafka or Pulsar

 从消息处理和流处理的角度来分析kafkapulsar 相似,它都是一个大规模,分布式消息流数据处理平台。但是pulsar的优势在于其计算层和数据储存层是分开的,带来的优点是可以更好的系统扩充和负载均衡。可以分开的扩容计算层和存储层,计算层是无状态的,所以当扩展计算层时,对系统影响很小,而且会极其快速。同时也会更好的实现负载均衡。

Pulsar技术支持无缝跨数据中心数据复制,这也是kafka没有拥有的功能。Pulsar还拥有更灵活的消息处理模式,例如发布订阅,消息队列,混合模式。

以下将介绍如何使用三个技术来实现lambda架构。

 在批处理层用cassandra原始数据的主数据库,在速处理层用pulsar来支持接收源数据流,在批处理层,有定时的spark job,Spark job从原始数据库里读取数据进行分析处理,把生成的数据放入到服务层的数据库里,服务层数据库就代表批处理数据视图。在速处理层,实时的数据流进入之后。

可以定义pulsar函数,Pulsar是对实时数据进行处理的手段,可以对数据进行过滤,集成。通过pulsar可以把新的数据放到另一个pulsar的主题里。通过pulsarcassandra的连接器写进服从的相关的视图里。作为终端用户可以查询数据。

 以下为lambda架构需要用到的技术栈和实现平台

image.png

实现平台用到的是dse,因为可以用一个dse集群来实现Cassandraspark的所有功能。

 

 

 

三、示例程序介绍

 

 示例程序的应用场景是极简化的石油钻头探测器时序数据模拟。以下为时序程序中所包含的数据内容包括钻头id,传感器id,传感器类型及传感器的读取时间,读取的值等。

image.png

 应用场景就是每个钻探地点有多个钻探头,每个钻探头有两种传感器,一种是温度,另一种是速度,每个传感器每隔一段时间(一秒或一分钟)采集一次数据。需要回答的商业问题,例需要监控每个钻头的健康状况,防止其过热或速度过快。从批处理视图的角度来看,需要记录每个钻头每日的平均温度和转速,每天一次批处理。想从诉处理视图的角度来说,记录最近一天之内出现钻头过热或速度过快的情况,实时进行处理。

 

 

 演示程序里所需部件有负载生成器,负载加载器,每日spark汇总程序,pulsar消息发布器,parser函数,pulse 摄氏度连接器。

负载生成器是按照所需的原始数据格式,生成一系列的模拟数据,生成的数据放在一个csv格式的文件中。可以控制钻头数量及传感器数量或采集数据的间隔时间。从批处理层面来讲,把生成的数据加载到原始数据库里生成一张cassandra表。

由每日的spark汇总程序对主数据库中的原始数据每天进行汇总,将汇总好的数据写入批处理视图数据库中,位于服务层。Pulsar消息发布器负责将深沉的原始数据以消息的方式实时发送到pulsar主题中。当发送到pulsar主题后,就会有pulsar函数对原始数据信息流进行实时数据流处理,将处理过的数据写入新的pulsar主题中。新生成的pulsar主题对应的是服务层中速处理视图。新的pulsar主题到数据库是由pulsar cassandra连接器将处理过的实时数据自动写入速处理视图数据库中的

 

以下为cassandra数据表模型

image.png

 主要有三个cassandra键空间,分别对应于原始数据主数据库表,批数据视图数据库表。速处理层视图数据库表。

Pulsa主题如下:

image.png

 主要有两个,第一个主题主要对应原始钻头传感器数据以信息的形式发布到主题中;另一个主题对应流处理过的感应器预警数据以信息的形式发布到这个主题中。

例如过滤掉旧数据,过滤掉一些正常运转的钻头是否过速或过热并不是该主题所关注的内容,只关注预警钻头的信息。

 

 

整个数据处理流程概况:

第一步,预处理。预处理包括创建cassandra键空间和表(cassandra cql);生成模拟的工作负载文件(负载生成器)

 

第二步,数据加载。在批处理层中,将源数据加载到原始数据主数据库中(负载加载器);在速处理层中,将源数据以信息的方式实时发送到pulsar主题中(Pulsa主题发布器)

 

第三步,数据处理,视图数据生成。在批处理层中,将每日源数据批处理写入批处理视图(每日spark汇总程序);在速处理层中将当日数据实时处理,写入速处理视图(pulsar函数,pulsar cassandra连接器)

 

第四步,数据分析。终端用户可以使用spark sql来访问不同数据。从不同的数据视图中来访问所需要的信息。

 

 将所有cassandra被删除,确保没有所需要的键空间。第一步,创建cassandra所需要的键空间和表,能发现的是,每个键空间的数据表里是没有数据的,都是zero date

生成模拟数据利用java程序制作,编译运行此程序,可以发现产生数据数量。数据都是关于钻头的信息及模拟数据生成频率。负载加载器是把源数据加载到了批处理层的数据库里。此时返回可以得到关于传感器的值及钻头信息,而另外两个数据库仍然没有任何数据。

第二步,运行spark job,相当于对主数据库的数据进行了一次汇总,按照每天每个钻头平均速度和温度显示。

运行之后,可以看到数据被显示出来。每个数据对应的是每个钻头在某一天的平均转速和平均温度,此时批处理层的模拟数据已经运行完毕。速处理层运用pulsar,部署一个pulsar函数到function,同时sync负责把从函数里生成的数据写入到服务层数据库中。之后继续运行一个message发布器,message发布器,会把原始数据发布到第一个pulsar数据主题中,第一个数据会被function进行数据处理,处理好的数据会被放到第二个pulsar数据主题中。第二个数据中有主题会Sync写入到下游数据库中。这些数据都属于内部,无法被显示出来,所以此时无法显示数据。

发布原始数据时,经过整个处理过程可以看到速处理层的原始数据里面会有数据。下一步回到速处理视图里会发现已经开始显示数据,且显示出来的只是最近时间段中数值极大的数据,最开始的历史数据已经被function自动过滤。由此看来,从整个端到端的数据流程已经处理完毕。

 

四、实例

 根据官方文档,如何使用spark来连接源数据库cassandra实例。

首先需要具备的前提条件是已经开通对象存储oss;拥有个人数据库cassandra实例;获取cassandra实例的私网连接点。Cql接口。数据库用户名,数据库密码,这些信息会被用到连接cassandra实例;需要创建数据表并植入数据,用来验证spark可以正确的连接到数据表里读取数据;需要为dl a spark访问cassandra实例所需要的安全锁id和交换机id。安全锁id和交换机id主要应用于dla spark这些访问实例中,需要挂在虚拟网卡上才可以访问cassandra实例。创建虚拟网卡必须使用安全锁id和交换机id,由此,用户必须提供安全锁id和交换机id。然后查看ip所在的网段(可通过专有网络控制台查看),接着修改白名单。这样Cassandra实例才能被正常访问,不被防火墙阻挡。查找完安全锁id后就可以开始处理。开始书写代码时需要插入查找到的连接cassandra实例的信息。代码主要功能就是写表和读表。将把代码打包上传到Oss路径下后进入dra spark的控制台,必须确保代码含有以上所述数据。所有的id都是用于配置创建虚拟网卡访问cassandra实例所需要的。点击运行后,即可实现sparkcassandra连接。通过日志即可了解spark已经连接成功Cassandra实力。

 

以下为基本步骤:

 第一步开通oss存储;第二部拥有cassandra实例;第三步,从cassandra控制台获取连接cassandra实例所需要的信息,例如用户名,密码及其连接的信息;第四步,准备一张测试表,用于连接cassandra的测试。第五步,网络打通,关键要具备安全锁id和交换机id用于创建spark的虚拟网卡。拥有虚拟网卡且保证安全所没有被限制后即可用于访问

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
1月前
|
存储 分布式计算 Hadoop
大数据处理架构Hadoop
【4月更文挑战第10天】Hadoop是开源的分布式计算框架,核心包括MapReduce和HDFS,用于海量数据的存储和计算。具备高可靠性、高扩展性、高效率和低成本优势,但存在低延迟访问、小文件存储和多用户写入等问题。运行模式有单机、伪分布式和分布式。NameNode管理文件系统,DataNode存储数据并处理请求。Hadoop为大数据处理提供高效可靠的解决方案。
135 2
|
1月前
|
存储 数据可视化 数据管理
基于阿里云服务的数据平台架构实践
本文主要介绍基于阿里云大数据组件服务,对企业进行大数据平台建设的架构实践。
831 2
|
10天前
|
分布式计算 大数据 数据处理
经典大数据处理框架与通用架构对比
【6月更文挑战第15天】本文介绍Apache Beam是谷歌开源的统一数据处理框架,提供可移植API,支持批处理和流处理。与其他架构相比,Lambda和Kappa分别专注于实时和流处理,而Beam在两者之间提供平衡,具备高实时性和数据一致性,但复杂性较高。选择架构应基于业务需求和场景。
22 3
经典大数据处理框架与通用架构对比
|
11天前
|
存储 分布式计算 大数据
数据仓库与数据湖在大数据架构中的角色与应用
在大数据时代,数据仓库和数据湖分别以结构化数据管理和原始数据存储见长,共同助力企业数据分析。数据仓库通过ETL处理支持OLAP查询,适用于历史分析、BI报表和预测分析;而数据湖则存储多样化的原始数据,便于数据探索和实验。随着技术发展,湖仓一体成为趋势,融合两者的优点,如Delta Lake和Hudi,实现数据全生命周期管理。企业应根据自身需求选择合适的数据架构,以释放数据潜力。【6月更文挑战第12天】
34 5
|
4天前
|
存储 数据采集 数据挖掘
“湖仓一体架构及其应用”写作框架,系统架构设计师
随着5G、大数据、人工智能、物联网等技术的不断成熟,各行各业的业务场景日益复杂,企业数据呈现出大规模、多样性的特点,特别是非结构化数据呈现出爆发式增长趋势。在这一背景下,企业数据管理不再局限于传统的结构化OLTP(On-Line Transaction Processing)数据交易过程,而是提出了多样化、异质性数据的实时处理要求。传统的数据湖(Data Lake)在事务一致性及实时处理方面有所欠缺,而数据仓库(Data Warehouse)也无法应对高并发、多数据类型的处理。因此,支持事务一致性、提供高并发实时处理及分析能力的湖仓一体(Lake House)架构应运而生。湖仓一体架构在成本、
|
1月前
|
存储 运维 监控
|
1月前
|
消息中间件 大数据 Kafka
Kafka与大数据:消息队列在大数据架构中的关键角色
【4月更文挑战第7天】Apache Kafka是高性能的分布式消息队列,常用于大数据架构,作为实时数据管道汇聚各类数据,并确保数据有序传递。它同时也是数据分发枢纽,支持多消费者订阅,简化系统集成。Kafka作为流处理平台的一部分,允许实时数据处理,满足实时业务需求。在数据湖建设中,它是数据入湖的关键,负责数据汇集与整理。此外,Kafka提供弹性伸缩和容错保障,适用于微服务间的通信,并在数据治理与审计中发挥作用。总之,Kafka是现代大数据体系中的重要基础设施,助力企业高效利用数据。
78 1
|
1月前
|
存储 SQL 机器学习/深度学习
通用数据湖仓一体架构正当时
通用数据湖仓一体架构正当时
93 2
|
1月前
|
存储 大数据 BI
数据仓库、数据湖、湖仓一体,究竟有什么区别?
近几年大数据概念太多了,数据库和数据仓库还没搞清楚,就又出了数据湖,现在又说什么“湖仓一体”。乙方公司拼命造概念,甲方公司不管三七二十一,吭哧吭哧花钱搞数据建设。到头来发现,钱也花了,人力也投入了,但最基本的业务需求都解决不了。
|
1月前
|
存储 大数据 分布式数据库
Hudi数据湖技术引领大数据新风口(四)核心概念
Hudi数据湖技术引领大数据新风口(四)核心概念
98 1