环境篇之项目架构|学习笔记

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 快速学习环境篇之项目架构

开发者学堂课程【大数据 Flink 实时旅游平台环境篇 2020版:环境篇之项目架构】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/643/detail/10690


环境篇之项目架构

项目架构

作为一个平台型的项目,或者是其他一些与大数据相关的普通型项目都需要对项目进行分层。

分层的主要意义是让整个项目的流程更加的清晰。

图片31.png

1、数据收集层(数据采集层)

最底层的数据收集层,或者叫数据的采集层,用户在去做一些访问,或者是做各种行为操作的时候容易产生数据,有的可能产生这日志数据,或者是产生到某一个接口上,或者进入到 MySQL 管理数据库里,所以最下面的一层其实就是得到一些数据,这里面的数据需要被采集出来,而不是在这里面直接分析,因为直接分析不能形成实时的分析。

2、数据存储

数据收集完成之后,自然就是数据存储了,因为数据收集就是要把数据转存到另外一个地方去,存储数据的载体主要有 Kafka、ES、Redis、HDFS、Druid、Neo4j、Alluxio,这几个是作为大数据,尤其是在实时项目中比较常用的载体。

我们在此选择重点的去讲,Kafka 本身就是大数据公司的标配,作为数据通道,即用户的一些行为数据数据是可以转存到这里面中的,当然也可以通过日志的形式,就是把日志里面的数据的实时采集到里面来,然后去实时的处理;

ES 其实是一个快速查询的搜索引擎;Redis 也可以存储一些数据,然后通过数据也可以去完成辅助分析,主要用于存储一些分布式的文件。

3、计算引擎

作为一个计算引擎,Flink是当前最新的,也是相对来说比较火的实时统计搜索引擎。Spark、Kylin、Hive、Presto 也是大数据里面常用的一些数据处理引擎,Spark 是典型的批处理计算引擎,Kylin 是进行预处理的,然后还有 HIve 主要用于作数仓,Presto 主要适用于结构形式的查询。

另外平台强调的是数据挖掘,或者说深度学习,在此项目主要使用 Flink 计算引擎,其他加以了解即可。

4、平台管理

有了计算引擎,也有了数据之后,接下来就是平台管理。给平台完善流程,包括数仓的组建、任务调度、数据质量、元数据与血缘、资源管理、搜索引擎。

数仓本身就是一种问题的解决思路,也是一种流程、一种规范,所以说用它可以把数据分别存放,本次项目也会用到实时的具体流程;做一个项目或者做一个平台,肯定会有很多的任务,哪些任务需要首先去执行,哪些任务不需要立马执行,都要依靠任务的调度;

后续的数据质量、元数据血缘、资源管理、搜索引擎等等,都是对大数据平台进行管理的工具,这些工具很多采用的是第三方的,或者是一些开源的,数据质量用来保证数据的安全,数据的一致性、完整性以及数据的正确性等等;

元数据就是整个系统的平台,然后会有很多种类型的数据,形成一个链路,即所谓的血缘;平台肯定要有资源的管理;这些我们都可以去借助一些第三方的对资源进行监控和管理。

5、应用

完成了上述流程后,已经完全可以进行条理分析已经信息的调度,分析完成之后结果数据会被返回到结果库里,接下来就是数据的应用。数据的应用是整个数据分析的核心,但是从价值层面去考虑的话,最终没有达到应用层面,无论前面再怎么分析,其实都是没有意义的。应用其实也包括很多,比如BI可视化、用户画像,把用户分为重点用户、老用户、青年用户以及学生群体的用户等等,对客户种类进行分类;

还有广告、推荐,数据分析完成之后,一般都会基于用户画像来去做一些精准的营销或者说推荐,包括广告的投放;另外基于结果数据去进行具体的查询以及整个的流量计算。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
1月前
|
前端开发 JavaScript 测试技术
android做中大型项目完美的架构模式是什么?是MVVM吗?如果不是,是什么?
android做中大型项目完美的架构模式是什么?是MVVM吗?如果不是,是什么?
107 2
|
21天前
|
前端开发 JavaScript 测试技术
android做中大型项目完美的架构模式是什么?是MVVM吗?如果不是,是什么?
在 Android 开发中,选择合适的架构模式对于构建中大型项目至关重要。常见的架构模式有 MVVM、MVP、MVI、Clean Architecture 和 Flux/Redux。每种模式都有其优缺点和适用场景,例如 MVVM 适用于复杂 UI 状态和频繁更新,而 Clean Architecture 适合大型项目和多平台开发。选择合适的架构应考虑项目需求、团队熟悉度和可维护性。
48 6
|
22天前
|
存储 前端开发 数据可视化
在实际项目中,如何选择使用 Flux 架构或传统的 MVC 架构
在实际项目中选择使用Flux架构或传统MVC架构时,需考虑项目复杂度、团队熟悉度和性能需求。Flux适合大型、高并发应用,MVC则适用于中小型、逻辑简单的项目。
|
1月前
|
前端开发 JavaScript 测试技术
Android适合构建中大型项目的架构模式全面对比
Android适合构建中大型项目的架构模式全面对比
46 2
|
1月前
|
存储 分布式计算 Hadoop
Hadoop-33 HBase 初识简介 项目简介 整体架构 HMaster HRegionServer Region
Hadoop-33 HBase 初识简介 项目简介 整体架构 HMaster HRegionServer Region
53 2
|
1月前
|
Cloud Native Java 对象存储
面向未来的架构设计:Spring Cloud和Netflix OSS在云原生环境下的发展趋势
面向未来的架构设计:Spring Cloud和Netflix OSS在云原生环境下的发展趋势
48 1
|
1月前
|
缓存 前端开发 JavaScript
前端架构思考:代码复用带来的隐形耦合,可能让大模型造轮子是更好的选择-从 CDN 依赖包被删导致个站打不开到数年前因11 行代码导致上千项目崩溃谈谈npm黑洞 - 统计下你的项目有多少个依赖吧!
最近,我的个人网站因免费CDN上的Vue.js包路径变更导致无法访问,引发了我对前端依赖管理的深刻反思。文章探讨了NPM依赖陷阱、开源库所有权与维护压力、NPM生态问题,并提出减少不必要的依赖、重视模块设计等建议,以提升前端项目的稳定性和可控性。通过“left_pad”事件及个人经历,强调了依赖管理的重要性和让大模型代替人造轮子的潜在收益
|
1月前
|
前端开发 JavaScript 测试技术
Kotlin教程笔记 - 适合构建中大型项目的架构模式全面对比
Kotlin教程笔记 - 适合构建中大型项目的架构模式全面对比
40 0
|
1月前
|
存储 消息中间件 前端开发
.NET常见的几种项目架构模式,你知道几种?
.NET常见的几种项目架构模式,你知道几种?
|
1月前
|
存储 SQL 消息中间件
Hadoop-26 ZooKeeper集群 3台云服务器 基础概念简介与环境的配置使用 架构组成 分布式协调框架 Leader Follower Observer
Hadoop-26 ZooKeeper集群 3台云服务器 基础概念简介与环境的配置使用 架构组成 分布式协调框架 Leader Follower Observer
49 0
下一篇
无影云桌面