大数据平台进度,它来了

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 小型大数据平台,持续沉淀,从0-1。

大家好,我是脚丫先生 (o^^o)

又是元气满满的周一。

然而,我自己除了瞌睡还是有点瞌睡,不知道小伙伴们是否一样。

一直以来我负责着大数据平台的工作,但是都是很模块化的,交付的项目大多数都是满足即可。

总是无法沉淀一个完善的产品,甚是遗憾。

因此,自己想研发属于自己的大数据平台。

希望未来的日子里,自己能不断的,轻抚它,优化它。

也希望未来的日子里,依然有输出「Hello World」的喜悦

image.png

整个大数据平台预计明年开源出来,多多与小伙伴们一起交流,一起进步!!!

虽然很烂,但是有一句话,不是这样说的嘛,重复才能产生伟大,我想说,重复并不是循环从0~1,而是从0.1~1、0.2~1、0.4~1,要在一定的势能基础上,继续加固和创新。

登陆页面

登陆页面和基本的后台管理一致。

基本没啥难度,都属于后端和前端的登陆、权限知识。
image.png

该页面以星空为背景,我感觉还是挺好看的,大数据正如星河般的数据,那么的无穷尽。

首页

首页页面,面板还没有确定具体的思路的研发。

不过自己有两个想法:

1.首页面板显示方法论,一般而言大数据平台是很复杂的,没有具体的操作手册,很难玩明白。

2.首页面板显示数据仓库里的每层数据容量,做一个图的可视化。

image.png

主菜单:

数据汇聚、数据开发、数据质量、数据集市、可视化、平台基础

数据汇聚

数据汇聚模块,目前进度80%

数据汇聚模块,名如其意,就是常常说的数据采集,属于大数据平台的基石。

该模块其实是集成了Datax-web。

修改了前端和优化了后端。

image.png

因为,之前我们小组一直是以datax进行异构数据源的采集,这方面稍微有点经验。

不过之后,还是想开发爬虫程序到数据汇聚模块,想获取到真实的数据,利用大数据平台,走完整个数据仓库流程。

数据开发

数据开发模块,进度为0%

不过,自己也是有想法的,暂时先完成离线开发。

思路以Hive为数据仓库,可视化的拖拽和自定义SQL组件进行数据的ETL,调度系统集成强大的Airflow。

之所以调度系统选择Airflow,主要是之后开发的数据科学模块,以Python语言为主。

数据治理

数据治理模块,目前进度50%

数据治理的核心工作:在企业的数据建设进程中,保障企业的数据资产得到正确有效地管理。

数据治理将全程监控整个数据流程,有效保障数据建设过程在一个合理高效的监管体系下进行,最终提供高质量、安全、流程可追溯的业务数据。

image.png

在数据治理模块中,主要研发了元数据管理,数据质量管理,数据标准管理。

当然,数据治理体系的建设还有其他的模块,目前仅限于此。

image.png

数据集市

数据集市模块,目前进度20%

数据集市,把Hive数据仓库里建模完成的主题数据,通过API接口的方式被访问。

image.png

数据可视化

数据可视化模块,目前进度已经完成,调试修改阶段

数据可视化,该模块可以直接抽取Hive仓库里的数据,进行简单的统计分析,直接出图。
image.png

平台基础

平台基础模块,目前进度已经完成。

主要以集群管理、系统管理、系统日志。

image.png

谈谈集群管理。

集群管理,主要是监控HDFS和Yarn的资源、任务,并以图的方式进行展示。

存储概览:监控HDFS的资源、节点、文件数等信息。

计算概览:监控Yarn上任务的运行状况、资源等信息。

监控概览:监控服务器的Cpu、内存等信息。

总结

大数据平台管理,是想完成一个自研的项目,在不断学习的同时、不断的优化。

争取 0->0.1---->1这个过程。

最后想完成持续的业务场景

比如说:

通过数据汇聚里的爬虫,对游民星空的游戏数据进行爬取,进入Hive数据仓库里,利用数据开发,进行ETL流程的统计分析,并且以调度的形式周期的进行。整个过程数据治理全程支撑。

最后利用可视化模块进行游戏统计指标的可视化展示。

实现数据的OneData过程。

或者,在数据仓库里完成建模以后,形成数据资产,以数据集市的api接口的方式提供给其他的应用。

实现数据的OneService过程。

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
数据采集 供应链 监控
RPA助力企业管理,十大高频场景
rpa在财务、人力资源、客服、供应链管理、市场推广、质量管理、项目管理、数据分析、合规管理和业务流程优化等场景中的应用
|
数据采集 存储 监控
大数据的数据来源 - 数据采集的方式(数据接入的方式)
大数据处理关键技术一般包括:大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)。下面主要介绍下大数据采集
6358 0
|
11月前
|
Linux 数据安全/隐私保护
linux特殊权限!!
本文介绍了Linux系统中的特殊权限,包括suid、sgid和sbit。suid使普通用户在执行特定命令时获得root权限;sgid使用户在创建文件时继承目录的用户组权限;sbit确保用户只能删除自己在共享目录中创建的文件。此外,文章还讲解了chattr和lsattr命令,用于更改和查看文件的扩展属性,以及umask的概念和计算方法,帮助理解文件和目录的默认权限。
245 1
linux特殊权限!!
|
XML Java Android开发
Android Studio App开发实战项目之广告轮播(附源码 可用于大作业)
Android Studio App开发实战项目之广告轮播(附源码 可用于大作业)
533 1
|
数据可视化 JavaScript 前端开发
D3.js的交互式图表和可视化效果
在当今数据爆炸的时代,有一个强大的工具可以帮助我们更好地理解和使用数据:D3.js。D3.js是一个流行的JavaScript库,用于创建交互式图表和可视化效果。本文将介绍D3.js的基本特性以及如何使用它来创建高质量的数据可视化。
|
XML 前端开发 Java
大数据平台后端一些开发规范
在研发的过程中,总结一些开发规范,希望可以帮助到小伙伴们。
大数据平台后端一些开发规范
|
机器学习/深度学习 人工智能 算法
一文读懂目标检测AI算法:R-CNN,faster R-CNN,yolo,SSD,yoloV2
## 1 引言 深度学习目前已经应用到了各个领域,应用场景大体分为三类:物体识别,目标检测,自然语言处理。上文我们对物体识别领域的技术方案,也就是CNN进行了详细的分析,对LeNet-5 AlexNet VGG Inception ResNet MobileNet等各种优秀的模型框架有了深入理解。本文着重与分析目标检测领域的深度学习方法,对其中的经典模型框架进行深入分析。 目标检测可以
19315 0
|
机器学习/深度学习 数据采集 人工智能
机器学习基础:大数据与深度学习的关系
机器学习基础:大数据与深度学习的关系
562 0
机器学习基础:大数据与深度学习的关系
|
机器学习/深度学习 数据采集 人工智能
论文阅读:Deep multi-view learning methods A review
论文阅读:Deep multi-view learning methods A review
1134 0
论文阅读:Deep multi-view learning methods A review
|
SQL 消息中间件 分布式计算
大数据工程师的日常
还不知道大数据工程师的日常么,快来了解。
大数据工程师的日常