【下载】阿特拉斯耸耸肩,数据治理法力无边~~

简介: 【下载】阿特拉斯耸耸肩,数据治理法力无边~~

这是彭文华的第101篇原创

上周去听了爱奇艺的分享会,发现他们数据图谱用的就是Atlas。后来有朋友找我要爱奇艺数据图谱的产品,这有啥说的啊?哥们给不了你爱奇艺,但是能给你爱奇艺用的Atlas!


为啥叫Atlas?

希腊神话有个叫Atlas的大力神,因为起义失败,被罚扛着地球(一说天),后来他太累了,就让人拿着美杜莎的头,把他石化了。

因为他扛着整个地球,欧洲人发明地图的时候就借用了他的名字。所以atlas翻译过来就是“地图册”。另外,人的颈椎第一节也叫atlas,意指跟atlas一样,上面顶个球。有本书叫《阿特拉斯耸耸肩》,没准你读过。阿特拉斯抗着地球,然后又是第一节颈椎,它耸耸肩,你品,你细品。。。

扯回来啊~~广大数据厂商长期以来饱受数据治理的痛苦,也没有一个好的产品能用。于是一位英雄就出来了。Hortonworks公司发起数据治理倡议,做了一个数据治理的产品,叫啥呢?就叫数据地图吧!然后Apache Atlas(Apache数据地图)就出来了。


基本上你能想到的数据治理功能,Atlas都已经有了。引用一段Atlas的原话:

Apache Atlas为组织提供开放的元数据管理和治理功能,以建立其数据资产的目录,对这些资产进行分类和治理,并为数据科学家,分析师和数据治理团队提供围绕这些数据资产的协作功能。


Atlas能干啥?

Atlas超级好用啊,可以只通过配置,就能接入所有的元数据,并把数据的血统给画出来:

并且还可以通过很简单的操作,在上游进行操作后,会对下游所有表都打上相应的标签,便于做影响分析。

同时呢,Atlas还能跟Apache的数据生命周期管理组件、数据安全管理组件联合,形成一个超级强大的数据治理兄弟团,厉害吧?


至于Atlas的元数据管理功能我就不说了,那就是增删改查而已,只不过他支持动态元数据更新监控,也就是说那边表结构改了,这边就能感知出来,这也不难实现。


解剖Atlas

放个架构图镇楼~~

这是从apache atlas官网上扒下来的图。

最底层是存储引起,元数据是存在Hbase的,索引在solr里,上面是JanusGraph图数据库。现在索引也能放在ES里,上图没更新而已。

再往上一层就是Core核心层了。核心层包括三个部分:

  • 类型系统(Type System): 就是用来定义各种元数据 对象实体的。
  • 图形引擎(Graph Engine:): Atlas用图数据库保存和管理所有元数据,所以下面才会有JanusGraph存储元数据对象。
  • 采集/导出(Ingest / Export):其实就是数据采集和导出功能,把所有的元数据采集到Atlas。

再往上就是集成层,可以通过kafka或者API进行数据集成。

然后就是元数据层,Atlas提供Hive、Sqoop、Falcon、Storm、Hbase的元数据提取组件,这些是开箱即用的。Falcon也是Apache的一个数据治理组件之一,是数据生命周期管理工具,重点是对数据管道的监控。

最后是应用层:

  • 基于标签的策略:Atlas还可以与Apache 的Ranger组件集成,增强数据安全管控能力。
  • Atlas Admin UI:Atlas提供一个管理界面,用来管理各种接入的元数据。通过类似于SQL的语言,查询Atlas管理的元数据类型和对象。
  • 同时,Atlas还提供各种数据血缘、数据生命周期可视化、快速数据建模等各种应用。


咋样?还阔以吧?装上Atlas,基本上元数据管理的问题就解决了。各种数据血缘、影响分析的功能就直接搞定。这就是所谓的数据地图了。


Atlas咋用?

你可以到Apache Atlas官网去下载 点击:http://atlas.apache.org/

随便找一个版本就行了,不过要注意各个组件的版本要求,基本上问题都是这个原因导致的。



相关文章
|
1月前
|
数据采集 存储 监控
探索数据治理的实践路径:构建高效、合规的数据生态系统
在当今这个数据驱动的时代,数据已成为企业最宝贵的资产之一,它不仅驱动着业务决策,还塑造着企业的竞争优势。然而,随着数据量的爆炸性增长和来源的多样化,如何有效管理这些数据,确保其质量、安全性及合规性,成为了企业面临的重大挑战。数据治理作为一套指导数据管理和使用的框架,其重要性日益凸显。本文将探讨推动数据治理的实践路径,旨在帮助企业构建高效、合规的数据生态系统。
|
25天前
|
监控 关系型数据库 MySQL
数据治理平台Datavines
【10月更文挑战第20天】随着数据量的增长和数字化转型的推进,数据治理成为关键议题。Datavines是一个开源的数据治理平台,提供数据目录、概览及质量检查等功能,帮助用户全面了解和管理数据,确保数据的准确性和有效性。通过简单的部署和配置,即可快速启动使用,支持数据源配置、质量监控及作业管理等核心功能。
106 10
|
1月前
|
数据采集 存储 监控
CDGA|数据治理:让数据与业务伴生的实践路径
在数据驱动的时代,数据已成为企业宝贵资产,蕴含推动业务增长与创新的无限可能。数据治理通过科学策略挖掘、整合、保护数据,成为企业数字化转型的核心驱动力。本文阐述了数据治理的定义、重要性及其实践路径,强调跨部门协作与全员参与,确保数据质量、安全及合规性,支持企业战略目标实现。通过明确数据战略、建立管理体系、推动数据共享和持续优化,数据治理助力企业实现数据与业务的伴生共长。
|
存储 供应链
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——8. 资产目录:主题式的目录,打造精品数据
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——8. 资产目录:主题式的目录,打造精品数据
134 0
|
数据采集 机器学习/深度学习 算法
数据治理之参考数据与主数据管理
最近凑巧参与了一次某行业的业务共创会议,期间讨论到了主数据系统,还有我们该如何参与主数据系统建设的话题。说实话,我一直以为我不会有机会参与到主数据与参考数据系统的话题中去,所以,又去把DAMA的书籍翻了翻。顺便也重新思考了一下主数据与参考数据这个数据治理的课题。
2750 1
数据治理之参考数据与主数据管理
|
存储 数据采集 监控
数据治理利器Dataphin:数据安全管理3步走,保障全链路数据安全(V3.11版本)
瓴羊Dataphin(智能数据建设与治理),一直在探索数据安全管理能力的产品化最佳实践,即如何帮助企业利用产品工具能力,基于法律法规、主管部门要求和自身行业和业务的需要,建立起规范的分级分类制度,并对敏感数据制定相应的保护策略。企业通过Dataphin构建起合规的数据安全体系,将数据安全风险降至最低,让数据资产在安全合规的基础上,得到最大的价值释放。
795 4
|
存储 大数据 数据库
亚信AISWare DataOS大数据中台套件介绍01——添加数据源
DataOS是一款汇总大部分大数据套件的企业型中台,可以满足企业大部分对大数据存储、计算、稽核的需求。但是平台使用体检并不好,所以有条件还是推荐使用阿里云的大数据组件
573 0
|
数据采集 存储 安全
数据治理:管理和保护数据的最佳实践
随着企业日益依赖数据来驱动业务决策和创新,数据治理成为一个至关重要的话题。数据治理是指规范、管理和保护数据资产的过程,以确保数据质量、合规性和安全性。在本文中,我们将探讨数据治理的重要性以及一些实施数据治理的最佳实践。
460 0
|
人工智能 安全 架构师
【数据治理】引导您制定有效数据治理计划的 7 个步骤
【数据治理】引导您制定有效数据治理计划的 7 个步骤
|
数据采集 机器学习/深度学习 人工智能
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——(三)资产治理:标准、质量、安全、资源(4)
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——(三)资产治理:标准、质量、安全、资源(4)
257 0