数据科学与数据治理项目全纪录

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 数据科学与数据治理项目全纪录

大家好,我是独孤风。

2022年已过去一半多的时间了。这半年多,我们重点关注了LinkedIn Datahub、Atlas等元数据管理工具,了解了他们在数据治理领域的作用。

也关注了Apache Griffin等数据质量工具的使用。

但是,在数据工程领域这只是冰山一角,近期lakeFS高级工程师Einat Orr发布一份2022年的数据工程汇总图,对于数据工程领域的优秀项目进行了整理汇总。

此高清大图我已经同步到学习群中,需要此高清大图的同学可以联系我获取。

下面我们来看一下,大数据和数据治理领域有哪些值得关注的优质项目。


1、数据采集软件

这一部分主要是数据采集的实时流技术和软件服务。

值得关注的是Airbyte, Airbyte成立于 2020 年,是一个开源项目。

附上地址: https://github.com/airbytehq/airbyte

Airbyte 是一个开源 EL(T) 平台,可帮助您在数据仓库、数据湖和数据库中复制数据。

2、数据采集框架

数据采集领域越来越向高扩展性的实时流计算演变。

毫无疑问,除了商用的软件以外,Spark、Flink、Kafka、Pulsar等开源技术将继续大发异彩。


3、对象存储

对象存储不是什么新技术了,但是从来都没有被替代掉。为什么?在这个大数据发展迅速地时代,数据已经不单单是简单的文本数据了,每天有大量的图片,视频数据产生,在短视频火爆的今天,这个数量还在增加。有数据表明,当今世界产生的数据,有80%是非关系型的。那么,对于图片,视频等数据的分析可以说是大数据与人工智能的未来发展方向之一。

这一领域老牌的Ceph,SwiftStack确实有一定的市场份额,但更应该关注新兴Minio。之前我们也做过相应的实践。

大数据流动历史文章: Github 29K Star的开源对象存储方案——Minio入门宝典


4、数据湖

去年的时候,数据湖的概念越来越多的被提及。

很多的公司想通过数据湖的方式,或者湖仓一体的概念,来简化数据工程的复杂程度。

Hudi、Iceberg也成为了很多公司的选择。

目前来看Databricks的架构依然是更高性能的,目前来看他们还没有开源出更多的东西。


5、以数据为中心的机器学习

从现在看,很多东西已经非常的清晰了。

端到端 MLOps 工具,以数据为中心的机器学习方法的工具,机器学习的 可观察性和监控。

2022年deepchecks开源。

https://github.com/deepchecks/deepchecks

deepchecks用于验证 ML 模型和数据的测试套件。Deepchecks 是一个 Python 包,用于以最小的努力全面验证您的机器学习模型和数据。


6、数据治理

数据治理的道路,任重道远。

目前我们关注的重点还是Atlas和Datahub。

Atlas是老牌的Hadoop生态中的一员,对于数据血缘的支持还是足够的。

通过二次开发,Atlas可以满足大部分公司的业务需求。

而Datahub作为一颗冉冉升起的新星,更是值得持续的关注。

数据治理之元数据管理的利器——Atlas入门宝典

一站式元数据治理平台——Datahub入门宝典

万字保姆级长文——Linkedin元数据管理平台Datahub离线安装指南


相关文章
|
数据采集 存储 运维
DAMA数据管理知识体系指南(3):数据治理
DAMA:国际数据管理协会,是一个全球性数据管理和业务专业志愿人士组成的非营利协会,是当前国际上在数据治理领域最权威的机构。 DMBOK2则是DAMA组织众多数据管理领域的国际级资深专家编著,深入阐述数据管理各领域的完整知识体系。它是市场上唯一综合了数据管理方方面面的一部权威性著作。 本系列文章,将针对DMBOK中的核心内容进行解读。
DAMA数据管理知识体系指南(3):数据治理
|
大数据
数据治理专业认证CDMP学习笔记(思维导图与知识点)- 第14章大数据与数据科学篇
数据治理专业认证CDMP学习笔记(思维导图与知识点)- 第14章大数据与数据科学篇
131 0
|
数据采集 存储 监控
DMBOK 读书笔记系列 数据治理
数据治理的定义是在管理数据资产过程中行使权利和管控,包括计划、监控和实施。数据治理职能是指导所有其他数据管理领域的活动。
DMBOK 读书笔记系列 数据治理
|
机器学习/深度学习 算法 数据挖掘
细数数据科学团队中的十大关键角色
应用数据科学是一项高度跨学科的团队工作,需要用多样性的角度看问题。事实上,比起专业知识和经验,观点和态度的重要性也不容小觑。以下是我对数据科学团队构成的看法。
2687 0
|
数据挖掘
如何打造数据科学团队,你想知道的都在这里
本文的两位作者分别是 Instacart 负责数据科学业务的副总裁 Jeremy Stanley,以及技术顾问、LinkedIn 前数据业务负责人 Daniel Tunkelang。
1558 0
|
分布式计算 数据可视化 大数据