12款开源数据资产(元数据)管理平台选型分析(二)

简介: 12款开源数据资产(元数据)管理平台选型分析(二)

当ChatGPT一月新增一亿用户时,人们无限感叹于AI的神奇力量,似乎宇宙的尽头就是AI。然而,只有深入研究AI或者从事AI相关工作的人,才深有体会的事,那就是每一个牛鼻的AI模型背后都有一坨又一坨一言难尽的数据。

随着数据即土地、劳动力、资本、技术之后,成为第五要素,随着数字化及数字化转型在全球如火如荼的开展,随着数字孪生及元宇宙在全世界范围广泛兴起,越来越多的企业开始采用人工智能、机器学习和大数据分析去挖掘数据的价值。然而,当企业深入推进数据驱动价值的进程时,他们意识到,要开始实现数字化及数字化转型,实现数据驱动业务,之前出现过得一切信息化技术,以及之后可能出现的一切信息技术,都无法提供神奇的解决方案,可以在一夜之间改变企业的一切。事实上,技术只是达到目标的手段,唯有对组织的文化、技术架构和运营模式进行根本性的、长期性的持续变革,才有可能在可见的未来实现想要的目标。

尽管如此,在众多信息技术的背后,需要一个关键组件,那就是数据目录(数据资产管理平台、元数据平台)。它将企业的数据组织在一个地方,并允许企业使用元数据对其进行标记,让更多的团队和人员可以更有效地发现和管理数据。

在12款开源数据资产(元数据)管理平台选型分析(一)中,我们讨论了4款开源数据资产管理平台。本文作为该系列的第二篇文章,将继续分析Open metadata、Open Data Discovery、Magda、CKAN 4款开源数据资产管理平台。

Open Metadata

在这里插入图片描述

开源地址https://github.com/open-metadata/OpenMetadata 1.9K star OpenMetadata是元数据的开放标准,为端到端元数据管理解决方案提供了基础能力。提供数据发现、数据治理、数据协同、数据质量和可观测性的所有必要组件。

与Open Data Discover类似,其UI非常美观,其操作和使用逻辑,也符合业务人员的习惯。

Open Metadata的优点:

  • 提供在线体验Demo环境,有助于推广拉新
  • UI界面美观漂亮,界面操作逻辑符合国人使用习惯
  • 项目年轻,能够在已有的众多数据资产项目中吸取经验
  • 集成了数据质量模块
  • 支持开放数据标准,感觉也没啥用,国内玩不转
  • 基于数据可观测的新理念设计

Open Metadata的不足:

  • 项目处于起步阶段,国人参与不多
  • 与Open Data Discovery的区分度不是特别大
  • 产品还在快速开发中
  • 中文资料少的可怜

相关介绍https://sandbox.open-metadata.org/ 百闻不如一见,百见不如一干。

选型建议:项目处于早期,国内生态还未起来。有尝新意识和乐于折腾精神的人,可以去跟踪、研究。生产环境搭建使用,需要做好前、后端问题,都去深挖源码的准备。

商用版本:collate(https://www.getcollate.io/)是Open Metadata的SaaS版本。

Open Data Discovery

开源地址https://github.com/opendatadiscovery/odd-platform 692 star

Open Data Discover是一个开源的数据发现和可观测性平台。它旨在通过使数据更易于发现、管理、可观察、可靠和安全,帮助数据驱动企业实现数据民主化。由于ODD支持开放数据标准,因此数据团队能够在各种数据工具之间进行更高效的数据交换。

说实在,平台的UI确实非常漂亮。它的摄取是基于规范的。但是,该平台正在开发中,因此一些功能仍在开发中。

Open Data Discovery的优点:

  • 提供在线体验Demo环境,有助于推广拉新
  • UI界面美观漂亮,界面操作逻辑符合国人使用习惯
  • 项目年轻,能够在已有的众多数据资产项目中吸取经验
  • 集成了数据质量模块
  • Datahub有的一些优秀功能都做了规划
  • 支持开放数据标准,感觉也没啥用,国内玩不转
  • 提供了调度工作流告警接口
  • 基于数据可观测的新理念设计
  • ML是第一等公民,这个是对赌未来的AI发展预期

Open Data Discovery的不足:

  • 项目处于起步阶段,社区还不太活跃
  • 与Datahub大量功能重叠
  • 中文资料少的可怜
  • 产品的定位?

相关介绍https://demo.oddp.io/ 百闻不如一见,百见不如一干。

选型建议:项目处于早期,国内生态还未起来。有尝新意识和乐于折腾精神的人,可以去跟踪、研究。生产环境搭建使用,需要做好前、后端问题,都去深挖源码的准备。

Magda

开源地址https://github.com/magda-io/magda 408 star Magda是一个数据目录系统,提供数据编目、增强、搜索、跟踪和排序等功能。支持内部、外部数据源,支持大数据及小数据处理,支持通过文件、数据库或API的方式对外提供数据资产服务。

目标用户:数据技术人员,例如数据分析师、数据科学家和数据工程师。价值目标:为数据技术人员,提供历史数据版本管理、重复数据检测等辅助功能,提高数据查询、管理的效率及质量。

Magda的优点:

  • 轻量、简单的数据目录管理平台
  • 支持数据预览
  • 功能聚焦,独立部署
  • 界面朴素简洁
  • 支持地图数据

Magda的不足:

  • 功能单一,与下面的CKAN一样,定位于数据编目,数据展示及共享
  • 海量数据传输,性能有问题
  • 不支持现代大数据同步、集成
  • 功能相对单一

相关介绍https://demo.dev.magda.io/ 百闻不如一见,百见不如一试。

选型建议:现在的数据中台、数据资产平台都会包含类似的数据门户,Magda的功能会被集成,企业基本上比较少的场景会单独使用。

CKAN

image.png

开源地址https://github.com/ckan/ckan 3.7K star CKAN是世界领先的开源数据门户平台,用于制作开放数据网站的工具。CKAN使发布、共享和处理数据变得容易。这是一个数据管理系统,它为编目、存储和访问数据集提供了强大的平台,具有丰富的前端、完整的API(用于数据和目录)、可视化工具等。

上面的描述,是直接百度翻译CKAN github主页的描述。用大白话说,CKAN就是一个工具,可以帮助您把个人或者企业的数据集通过网站的方式展示出去。其他人可以浏览、检索、预览、编目、下载。CKAN非常适合国家、地方政府、研究机构、学校和其他组织用于开放数据。

CKAN的优点:

  • Python主要开发语言,上手入门似乎不是问题哈
  • 历史悠久,有大量的政府、研究组织用来开放公开数据
  • 使用简单、独立部署
  • 功能聚焦,中小规模数据编目、开发、预览及下载

CKAN的不足:

  • 聚焦于数据门户,即编目组织数据、提供数据预览及下载。
  • 海量数据传输,性能有问题
  • 不支持现代大数据同步、集成
  • 功能相对单一

相关介绍https://blog.csdn.net/iCloudEnd/article/details/125676123

选型建议:现在的数据中台、数据资产平台都会包含类似的数据门户,CKAN的功能会被集成,企业基本上比较少的场景会单独使用。政府、学校等机构有不少应用场景。

小结

本文介绍的4款开源数据资产管理平台中,Open Data Discovery与Open Metadata功能相近,定位也相同,发展路径和发展趋势也大同小异同,他们的界面美观性非常不错、功能丰富程度很有想象力,未来可期。有研发实力的组织和团队可以尝鲜试用,持续跟进。CKAN和Magda功能相近,定位相似,都是聚焦于数据资产管理的最后一公里,将数据编目好、让非数据技术人员,快速的检索、查找、预览及下载数据,如果没有复杂的数据加工、集成、处理流程,只是共享一些质量较好的、中小规模的数据,可以考虑CKAN和Magda。

相关文章
|
SQL 分布式计算 数据管理
12款开源数据资产(元数据)管理平台选型分析(一)
12款开源数据资产(元数据)管理平台选型分析(一)
3001 2
|
2月前
|
存储 安全 开发工具
CSGHub 开源大模型资产管理平台
CSGHub是一个开源的大模型资产管理平台,支持LLM及其应用的全生命周期管理。用户可通过Web界面、Git命令或Chatbot进行资产的上传、下载、存储、校验和分发。他们刚发不到了阿里云云市场
|
5月前
|
存储 数据采集 SQL
数据平台问题之数据资产管理混乱的问题如何解决
数据平台问题之数据资产管理混乱的问题如何解决
|
8月前
|
存储 数据采集 人工智能
数据资产管理技术与工具
数据资产管理技术与工具
|
8月前
|
数据采集 存储 SQL
【开源项目推荐】OpenMetadata——基于开放元数据的一体化数据治理平台
【开源项目推荐】OpenMetadata——基于开放元数据的一体化数据治理平台
1192 3
|
SQL 数据可视化 数据挖掘
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——7. 自助分析:灵活分析,快速释放数据价值
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——7. 自助分析:灵活分析,快速释放数据价值
160 0
|
存储 供应链
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——8. 资产目录:主题式的目录,打造精品数据
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——8. 资产目录:主题式的目录,打造精品数据
151 0
|
数据采集 机器学习/深度学习 算法
数据治理之参考数据与主数据管理
最近凑巧参与了一次某行业的业务共创会议,期间讨论到了主数据系统,还有我们该如何参与主数据系统建设的话题。说实话,我一直以为我不会有机会参与到主数据与参考数据系统的话题中去,所以,又去把DAMA的书籍翻了翻。顺便也重新思考了一下主数据与参考数据这个数据治理的课题。
2792 1
数据治理之参考数据与主数据管理
|
数据采集 存储 安全
数据治理:管理和保护数据的最佳实践
随着企业日益依赖数据来驱动业务决策和创新,数据治理成为一个至关重要的话题。数据治理是指规范、管理和保护数据资产的过程,以确保数据质量、合规性和安全性。在本文中,我们将探讨数据治理的重要性以及一些实施数据治理的最佳实践。
491 0
|
监控 安全 数据管理
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——(三)资产治理:标准、质量、安全、资源(3)
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——(三)资产治理:标准、质量、安全、资源(3)
330 0