数据治理:白话打通对Atlas的理解

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 数据治理:白话打通对Atlas的理解

Atlas现在被企业使用的越来越多,我们可能听说过,但是具体它是什么,能干什么的,我们可能不清楚。


Atlas是什么?



Apache Atlas是Hadoop社区为解决Hadoop生态系统的元数据治理问题而产生的开源项目,它为Hadoop生态系统集群提供了包括数据分类、集中策略引擎、数据血缘、安全和生命周期管理在内的元数据治理核心能力。


上面我们或许听着比较懵圈,都是啥,元数据治理是啥?为啥要元数据治理?元数据不就是用来描述数据的数据,我们这么理解没有错的,不过这个是其中重要的一项。比如Hive的元数据,那是需要第三方数据库的,大多存储到mysql中。为啥又出来一个Atlas,它能管理Hive的元数据吗?别说,还真可以的。那为啥要用Atlas来管理。这就涉及到我们的第二个问题,Atlas能干什么?。


Atlas能干什么?



其实很多大数据组件都有元数据管理,比如:

Hive保存在外部数据库中,比如Mysql


Hadoop元数据保存在Namenode,元数据的存储格式:data/hadoopdata/目录下

name:元数据存储目录

namenode存储元数据的存储目录


Kakfa元数据一般保存在zookeeper中

等等以上,我们的元数据每个大数据组件都有保存的地方,为啥还需要Atlas


上面元数据是为了功能而生,都是单独的系统,散落在各个组件中,而我们能不能把这些元数据统一管理,而且数据的变化我们也能看到那就更好了。而且如果能把我们整个集群的大数据组件的元数据我们都能看到,那就更好了。看到这些有什么好处?比如我们想找到Hive有哪些表,想查看我们数据是怎么来的。这时候数据管理工具就产生了--Atlas,用来管理元数据的平台。


我们知道了Atlas是什么,能干什么,可能是比较通透了。可是还不够详细,那么接下来我们看看Atlas有哪些功能,有什么特点。这里直接借用《大数据治理与安全从理论到开源实践》书中内容。

b7fa0d3374518b7aa91ddafec40de1f6.jpg

fccb55cc99c5dbef2c3f2273d60776d9.jpg

1b5b43383051745703d773faba9e07f5.png

上面其实如果我们没有接触过大数据治理或则说没有涉及过大数据治理,还是比较懵的。对于元数据交换,这个没什么,就是一个数据的导出。数据的血统,这个就比较难以理解了。后面我们举例子。数据的可视化,相信大家应该也不陌生,快速数据建模,这个其实也不难理解,我们可以整体看到元数据,利于我们整体把握。丰富的API,这个属于它的功能了。


对于特性,我们这里不一一说了。这里介绍下比较难以理解的血统关系。我们这里以Hive为例


创建两张hive表,然后通过表的join创建一张新表:


- 创建一张hive表存储以数组形式存储tweet文本中的单词

CREATE TABLE words_array AS SELECT tweet_id AS id, split(text,' ') AS words FROM tweets;

- 创建一张hive表将文本中的数组切分成单独的单词


CREATE TABLE tweet_word AS SELECT id AS id, word FROM words_array LATERAL VIEW explode(words) w as word;

- 通过对上述表的Join操作创建新的表


CREATE TABLE word_join AS SELECT tweet_word.id, tweet_word.word, sentiment_dictionary.rating FROM tweet_word LEFT OUTER JOIN sentiment_dictionary ON (tweet_word.word=sentiment_dictionary.word);

在Atlas中,上述操作生成的word_join表的血缘关系图如下所示:


4034a1b5a6c82f00556a90daf0a2866e.jpg


我们明白了Atlas的一些功能和特性,下面我们来看看Atlas的架构,以便让我们有一个更形象的认识。


2eabd466ccc5c53ec40396fc7fa2ca3d.jpg

上面主要打通大家对Atlas的理解,如果大家想更系统的学习Atlas,推荐下面资料:


大数据平台-元数据管理系统解析

https://www.jianshu.com/p/9fe3ff2bbe99


大数据治理与安全从理论到开源实践

https://www.aboutyun.com/forum.php?mod=viewthread&tid=28225


元数据与数据治理|大数据治理 Apache atlas

https://www.songma.com/news/txtlist_i37131v.html

Hadoop的元数据治理--Apache Atlas

https://www.jianshu.com/p/4eee91bc926c


相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
2月前
|
存储 人工智能 分布式计算
云栖实录 | 阿里云 OpenLake 解决方案重磅发布:多模态数据统一纳管、引擎平权联合计算、数据共享统一读写
阿里云 OpenLake 解决方案重磅发布,构建大数据、搜索、AI 一体化的能力体系,实现多模态数据统一纳管、多种计算引擎平权计算、大数据 AI 一体化开发,助力企业基于数据资产构筑竞争力。
261 10
云栖实录 | 阿里云 OpenLake 解决方案重磅发布:多模态数据统一纳管、引擎平权联合计算、数据共享统一读写
|
3月前
|
JSON 数据管理 关系型数据库
【Dataphin V3.9】颠覆你的数据管理体验!API数据源接入与集成优化,如何让企业轻松驾驭海量异构数据,实现数据价值最大化?全面解析、实战案例、专业指导,带你解锁数据整合新技能!
【8月更文挑战第15天】随着大数据技术的发展,企业对数据处理的需求不断增长。Dataphin V3.9 版本提供更灵活的数据源接入和高效 API 集成能力,支持 MySQL、Oracle、Hive 等多种数据源,增强 RESTful 和 SOAP API 支持,简化外部数据服务集成。例如,可轻松从 RESTful API 获取销售数据并存储分析。此外,Dataphin V3.9 还提供数据同步工具和丰富的数据治理功能,确保数据质量和一致性,助力企业最大化数据价值。
168 1
|
3月前
|
弹性计算 JSON 监控
EventBridge:构建SaaS应用集成的桥梁,让数据流动成为一场精彩的交响乐!
【8月更文挑战第8天】在云计算时代,SaaS应用因灵活性和可扩展性备受青睐,但多应用环境下的数据共享成为挑战。Amazon EventBridge作为一款无服务器事件总线服务,支持应用程序、SaaS应用及AWS服务间的事件驱动交互。它简化了事件产生、路由与处理流程,支持自定义与内置事件,实现应用间松耦合集成,提升系统可维护性和扩展性。通过定义业务相关事件、创建事件模式及规则,可轻松配置目标动作(如Lambda函数),实现如新订单触发CRM更新等场景。EventBridge提供高效灵活的集成方式,有助于提高应用响应性和可扩展性,成为云架构师不可或缺的技能之一。
47 7
|
6月前
|
SQL 分布式计算 Hadoop
百川终入海 ,一站式海量数据迁移工具 X2Doris 正式发布
在这一过程中,如何将海量历史数据进行高效迁移成为用户的痛点所在。基于这一目标,我们启动了名为“百川入海”的专项开发任务,开发了**一站式海量数据迁移工具 X2Doris**,集自动建表和数据迁移于一体、提供了对 Apache Hive、ClickHouse、Apache Kudu 以及 StarRocks 等多个数据源的支持,全程界面化、可视化操作,仅通过鼠标操作即可完成大规模数据同步至 Doris 中,并提供了极速和稳定的迁移体验。在经过数个月的公开测试和近百家企业的打磨后,今天我们很高兴地宣布, **X2Doris 正式发布、面向所有社区用户免费下载使用**,数据迁移至 Apache Do
百川终入海 ,一站式海量数据迁移工具 X2Doris 正式发布
|
4月前
|
数据采集 存储 数据管理
OneData:阿里巴巴的数据仓库之旅与统一数据治理实践
OneData 为解决大数据时代的挑战提供了一条可行的道路,对于其他企业和组织来说具有重要的参考意义。随着技术的不断进步和应用场景的扩展,OneData 的未来发展值得期待。
|
6月前
|
数据采集 存储 SQL
【开源项目推荐】OpenMetadata——基于开放元数据的一体化数据治理平台
【开源项目推荐】OpenMetadata——基于开放元数据的一体化数据治理平台
1101 3
|
存储 Cloud Native 数据可视化
定义现代化实时数据仓库,SelectDB 全新产品形态全面发布
飞轮科技与阿里云瑶池数据库已经达成战略合作关系,飞轮科技在9月25日的线上发布会上正式发布 SelectDB 全新产品形态
|
SQL 存储 数据采集
一图看懂企业大数据平台核心架构,值得参考!
一图看懂企业大数据平台核心架构,值得参考!
612 0
一图看懂企业大数据平台核心架构,值得参考!
|
消息中间件 SQL 存储
彻底打通实时数据仓库该如何实现及多种技术架构解析
彻底打通实时数据仓库该如何实现及多种技术架构解析
60046 0
彻底打通实时数据仓库该如何实现及多种技术架构解析
|
数据可视化 BI
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——二、Dataphin 演进之路:产品大图及核心功能详解
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——二、Dataphin 演进之路:产品大图及核心功能详解
411 0