12款开源数据资产(元数据)管理平台选型分析(一)

本文涉及的产品
数据管理 DMS,安全协同 3个实例 3个月
推荐场景:
学生管理系统数据库
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 12款开源数据资产(元数据)管理平台选型分析(一)

两年前,在文章最全大数据开源组件思维导图中,整理了大数据生态的开源技术组件思维导图,至今有4K的下载量。

尽管数据行业的新词热度,由大数据平台->数据治理->数据中台->数字化转型(现代数据技术栈)转换,做为这些新词的基础组成部分,数据资产管理平台/元数据管理平台/数据目录管理平台等技术方案,依旧处于Gartner曲线的爬升恢复期,相关平台百花齐放,一统江湖的开源平台或者商用产品还没出现,在推进企业数字化转型落地过程中,实现数据治理、数据资产管理平台/元数据管理平台/数据目录管理平台的选型,依旧是一项考验人能力的活。

计划分三篇文章详细介绍12款优秀的开源数据资产/元数据管理平台,在第三篇文章中,将通过一张选型二维表,全面对比12款开源软件的功能特性。

本文整理了其中Apache atlas、Datahub、Marquez、Amundsen四款产品,并简单分析其优缺点,供选项参考:

Apache Atlas

开源地址https://github.com/apache/atlas 1.5K star

Atlas最早由大数据平台三驾马车(Cloudera,Hortonworks,MapR)之一HortonWorks公司开发,用来管理Hadoop项目里面的元数据,进而设计为数据治理的框架,它为Hadoop集群提供了包括数据分类、集中策略引擎、数据血缘、安全和生命周期管理在内的元数据治理核心能力。后来开源出来给Apache社区进行孵化,得到Aetna,Merck,Target,SAS,IBM等公司的支持进行发展演进。因其支持横向海量扩展、良好的集成能力和开源的特点,国内大部分厂家选择使用Atlas或对其进行二次开发。目前,Cloudera,Hortonworks已经并购,MapR也鲜有新品。大数据技术领域,相较于Hadoop技术平台风头正盛的2016年,已经发生了巨大的变化,Hadoop体系正在逐步淡出舞台中央。MPP、现代技术栈、云原生数据库等登上舞台,例如Clickhouse、Doris、StarRocks、Databend、Materialize、Ringswave。

Atlas的优点:

  • 大厂开源,深度集成Hadoop生态中的Hive,支持表级、字段级血缘
  • 与HDP原生集成,支持对接Ranger实现行列级数据权限管控,安装便捷省心
  • 强大的元数据元模型,支持元数据定制及扩展
  • 源代码不复杂,国内有大量平台基于Atlas定制修改为商用产品

Atlas的不足:

  • 其优势也是劣势,母开源公司已被并购,历史悠久,不再是一种优势,反而是一种负担
  • Hadoop体系已经走向衰退,如何只是完美支持Hive和Hadoop体系,已经无法满足现在快速发展的技术要求
  • 其设计界面复杂,体验老旧、数据目录及数据检索都不够便捷
  • 使用体验复杂及产品功能更聚焦于解决技术人员的问题,而非数据的最终用户,比如业务人员
  • 生态渐渐失去新鲜感、新的类似平台不断发展

相关介绍https://mp.weixin.qq.com/s/MvaxSF74NE0E43i4rQEb3g

选型建议:1)如果您只有Hadoop生态,可以试试。2)如果您的数据资产是面向数据团队的技术人员,可以试试。

Datahub

开源地址https://github.com/datahub-project/datahub 7.2K star

DataHub是由Linkedin开源的,官方Slogan:The Metadata Platform for the Modern Data Stack - 为现代数据栈而生的元数据平台。目的就是为了解决多种多样数据生态系统的元数据管理问题,它提供元数据检索、数据发现、数据监测和数据监管能力,帮助大家解决数据管理的复杂性。

DataHub基于Apache License 2开源,采用基于推送的数据收集架构(当然也支持pull拉取的方式),能够持续收集变化的元数据。当前版本已经集成了大部分流行数据生态系统接入能力,包括但不限于:Kafka, Airflow, MySQL, SQL Server, Postgres, LDAP, Snowflake, Hive, BigQuery。

Datahub的优点:

  • 名门开源,与Kafka同家庭。社区活跃,发展势头迅猛,版本更新迭代迅速。
  • 定位清晰且宏远,Slogan可以看出团队的雄心壮志及后期投入,且不断迭代更新的版本也应证了这一点。
  • 底层架构灵活先进,未扩展集成而生,支持推送和拉去模式,详见:https://datahubproject.io/docs/architecture/architecture/
  • UI界面简单易用,技术人员及业务人员友好
  • 接口丰富,功能全面

Datahub的不足:

  • 前端界面不支持国际化,界面的构建和使用逻辑不够中国化
  • 版更更新迭代快,使用后升级是个难题
  • 较多功能在建设中,例如Hive列级血缘
  • 部分功能性能还需要优化,例如SQL Profile
  • 中文资料不多,中文交流社群也不多

相关介绍

https://mp.weixin.qq.com/s/74gK3hTt7-j1lTbKFagbTQ

https://mp.weixin.qq.com/s/iP6sc2DzPaeAKpSWNmf8hQ

选型建议:1)如果有至少半个前端开发人员+后台开发人员;2)如果需要用户体验较好的数据资产管理平台;3)如果有需要扩展支持各种平台、系统的元数据。请把Datahub列为最高选择。尽管列举了一些不足,但是开源产品中Datahub目前是相对最好的选择。笔者也在生产中使用,有问题的可以随时沟通交流。

商用版本: Metaphor(https://metaphor.io/)是Datahub的SaaS版本。

Marquez

开源地址https://github.com/MarquezProject/marquez 1.3K star

Marquez的优点:

  • 界面美观,操作细节设计比较棒
  • 部署简单,代码简洁
  • 依靠底层OpenLineage协议,结构较好

Marquez的不足:

  • 聚焦数据资产/血缘的可视化,数据资产管理的一些功能,需要较多开发工作

相关介绍https://mp.weixin.qq.com/s/OMm6QEk9-1bFdYKuimdxCw

选型建议:1)如果您有功能强大的元数据及数据资产管理平台后端,仅需要数据资产的可视化及血缘展示,可以考虑使用体验。2)界面展示比较棒,支持选择依赖线路高亮及隐藏支线依赖。要做到数据资产管理、元数据采集有较多的工作要做。

商用版本: Datakin(https://datakin.com/) 是Marquez的SaaS版本. 支持 Apache Hive, Amazon RDS, Teradata, Amazon Redshift, Amazon S3, and Cassandra.

Amundsen

在这里插入图片描述

开源地址https://github.com/amundsen-io/amundsen 3.8K star

Amundsen 是来自Lyft 开源的元数据管理、数据发现平台,功能点很全,有一个比较全的前端、后端以及数据处理框架

Amundsen的优点:

  • Lyft大厂开源,社区活跃,版本更新较多
  • 定位清晰明确,与Datahub类似,致力于成为现代数据栈中的数据目录产品
  • 支持对接较多的数据平台与工具

Amundsen的不足:

  • 中规中矩的UI界面,操作便捷性不足
  • 中文文档不多
  • 血缘、标签、术语等功能方面不如Datahub使用便捷
  • 较多支持友好的组件,国内使用的不多

相关介绍

https://mp.weixin.qq.com/s/yGZ1RJs2seu943sswxYYzw

https://mp.weixin.qq.com/s/5w6euvUWzm5RWXgisB-rMg

https://mp.weixin.qq.com/s/iVocnMV8zuQN-jcID83nSg

选型建议

1)如果有人折腾,建议选择Datahub,如果没人折腾,选择Amundsen够折腾

商用版本: Stemma(https://www.stemma.ai/)是Amundsen的SaaS 版本。

总结

数据治理、数据资产管理等工作,是企业数字化转型中的底层基建,很重要,却又很难体现出效果和价值。上层数据战略、数据架构、数据流程、数据规范等问题,在组织层面没有解决;不论数据资产平台等工作规划和实现得如何好,都只能体现出杯水车薪的效果。


另外,在这几年的写作中,我也发现了除了文字以外,用视频的方式来表达可能会更加的清晰,生动,效率更高。所以我也在近期开通了大数据流动的视频号。以后也会在视频号中做Datahub的一些教程,功能展示,部署演示等等作品出来。

也希望大家多多关注 大数据流动视频号。这是我坚持下去的唯一动力!

相关文章
|
1月前
|
存储 安全 开发工具
CSGHub 开源大模型资产管理平台
CSGHub是一个开源的大模型资产管理平台,支持LLM及其应用的全生命周期管理。用户可通过Web界面、Git命令或Chatbot进行资产的上传、下载、存储、校验和分发。他们刚发不到了阿里云云市场
|
数据采集 人工智能 数据管理
12款开源数据资产(元数据)管理平台选型分析(二)
12款开源数据资产(元数据)管理平台选型分析(二)
1740 0
|
7月前
|
数据采集 存储 SQL
【开源项目推荐】OpenMetadata——基于开放元数据的一体化数据治理平台
【开源项目推荐】OpenMetadata——基于开放元数据的一体化数据治理平台
1168 3
|
SQL 数据可视化 数据挖掘
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——7. 自助分析:灵活分析,快速释放数据价值
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——7. 自助分析:灵活分析,快速释放数据价值
158 0
|
存储 供应链
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——8. 资产目录:主题式的目录,打造精品数据
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——8. 资产目录:主题式的目录,打造精品数据
147 0
|
数据建模 供应链 定位技术
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——2. 规划:高屋建瓴,总览企业数据体系
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——2. 规划:高屋建瓴,总览企业数据体系
242 0
|
SQL API 数据安全/隐私保护
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——6. 数据服务:集中管控,快速服务业务系统
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——6. 数据服务:集中管控,快速服务业务系统
229 0
|
数据采集 机器学习/深度学习 算法
数据治理之参考数据与主数据管理
最近凑巧参与了一次某行业的业务共创会议,期间讨论到了主数据系统,还有我们该如何参与主数据系统建设的话题。说实话,我一直以为我不会有机会参与到主数据与参考数据系统的话题中去,所以,又去把DAMA的书籍翻了翻。顺便也重新思考了一下主数据与参考数据这个数据治理的课题。
2784 1
数据治理之参考数据与主数据管理
|
安全 数据处理 数据安全/隐私保护
数据安全最佳实践(7):通过多级安全分类构建业务安全体系【Dataphin V3.11】
在DataphinV3.11版本中,我们支持了构建多级安全分类体系的能力,用于支持客户定制和使用行业化的数据分类分级体系。 同时我们支持了识别特征的管理,可以使用内置的手机、姓名等识别特征;也在安全模型中内置了通用行业模型,便于客户直接应用,实现对大部分个人敏感数据和部分业务数据的识别和保护。
960 1
|
数据采集 存储 安全
数据治理:管理和保护数据的最佳实践
随着企业日益依赖数据来驱动业务决策和创新,数据治理成为一个至关重要的话题。数据治理是指规范、管理和保护数据资产的过程,以确保数据质量、合规性和安全性。在本文中,我们将探讨数据治理的重要性以及一些实施数据治理的最佳实践。
487 0