数据科学与数据治理项目全纪录

简介: 数据科学与数据治理项目全纪录

大家好,我是独孤风。

2022年已过去一半多的时间了。这半年多,我们重点关注了LinkedIn Datahub、Atlas等元数据管理工具,了解了他们在数据治理领域的作用。

也关注了Apache Griffin等数据质量工具的使用。

但是,在数据工程领域这只是冰山一角,近期lakeFS高级工程师Einat Orr发布一份2022年的数据工程汇总图,对于数据工程领域的优秀项目进行了整理汇总。

此高清大图我已经同步到学习群中,需要此高清大图的同学可以联系我获取。

下面我们来看一下,大数据和数据治理领域有哪些值得关注的优质项目。


1、数据采集软件

这一部分主要是数据采集的实时流技术和软件服务。

值得关注的是Airbyte, Airbyte成立于 2020 年,是一个开源项目。

附上地址: https://github.com/airbytehq/airbyte

Airbyte 是一个开源 EL(T) 平台,可帮助您在数据仓库、数据湖和数据库中复制数据。

2、数据采集框架

数据采集领域越来越向高扩展性的实时流计算演变。

毫无疑问,除了商用的软件以外,Spark、Flink、Kafka、Pulsar等开源技术将继续大发异彩。


3、对象存储

对象存储不是什么新技术了,但是从来都没有被替代掉。为什么?在这个大数据发展迅速地时代,数据已经不单单是简单的文本数据了,每天有大量的图片,视频数据产生,在短视频火爆的今天,这个数量还在增加。有数据表明,当今世界产生的数据,有80%是非关系型的。那么,对于图片,视频等数据的分析可以说是大数据与人工智能的未来发展方向之一。

这一领域老牌的Ceph,SwiftStack确实有一定的市场份额,但更应该关注新兴Minio。之前我们也做过相应的实践。

大数据流动历史文章: Github 29K Star的开源对象存储方案——Minio入门宝典


4、数据湖

去年的时候,数据湖的概念越来越多的被提及。

很多的公司想通过数据湖的方式,或者湖仓一体的概念,来简化数据工程的复杂程度。

Hudi、Iceberg也成为了很多公司的选择。

目前来看Databricks的架构依然是更高性能的,目前来看他们还没有开源出更多的东西。


5、以数据为中心的机器学习

从现在看,很多东西已经非常的清晰了。

端到端 MLOps 工具,以数据为中心的机器学习方法的工具,机器学习的 可观察性和监控。

2022年deepchecks开源。

https://github.com/deepchecks/deepchecks

deepchecks用于验证 ML 模型和数据的测试套件。Deepchecks 是一个 Python 包,用于以最小的努力全面验证您的机器学习模型和数据。


6、数据治理

数据治理的道路,任重道远。

目前我们关注的重点还是Atlas和Datahub。

Atlas是老牌的Hadoop生态中的一员,对于数据血缘的支持还是足够的。

通过二次开发,Atlas可以满足大部分公司的业务需求。

而Datahub作为一颗冉冉升起的新星,更是值得持续的关注。

数据治理之元数据管理的利器——Atlas入门宝典

一站式元数据治理平台——Datahub入门宝典

万字保姆级长文——Linkedin元数据管理平台Datahub离线安装指南


相关实践学习
实时数据及离线数据上云方案
本实验通过使用CANAL、DataHub、DataWorks、MaxCompute服务,实现数据上云,解决了数据孤岛问题,同时把数据迁移到云计算平台,对后续数据的计算和应用提供了第一步开山之路。
相关文章
|
6月前
|
监控 数据挖掘 数据库
【技能实训】DMS数据挖掘项目(完整程序) 1
【技能实训】DMS数据挖掘项目(完整程序)
73 0
|
6月前
|
数据挖掘 测试技术 数据库管理
【技能实训】DMS数据挖掘项目-Day03
【技能实训】DMS数据挖掘项目-Day03
40 0
|
6月前
|
存储 数据挖掘 数据库
【技能实训】DMS数据挖掘项目-Day13
【技能实训】DMS数据挖掘项目-Day13
27 0
|
6月前
|
数据采集 数据挖掘 数据库管理
【技能实训】DMS数据挖掘项目-Day12
【技能实训】DMS数据挖掘项目-Day12
26 0
|
6月前
|
存储 数据挖掘 测试技术
【技能实训】DMS数据挖掘项目(完整程序)2
【技能实训】DMS数据挖掘项目(完整程序)
47 0
|
4月前
|
SQL 分布式计算 大数据
大数据基础技能入门指南
大数据基础技能入门指南
|
11月前
|
机器学习/深度学习 人工智能 算法
花旗银行创建基于人工智能和数据科学的实用分析系统的实战经验
花旗银行创建基于人工智能和数据科学的实用分析系统的实战经验
|
机器学习/深度学习 数据采集 人工智能
数据科学实训案例研发:农业遥感图像数据分析上线阿里云
这是2020年阿里云计算有限公司-教育部产学合作协同育人项目的成果。 实训课程内容涵盖了主要内容涵盖了图像分割的基础知识,主要包括图像分割的概论、基础、分类、神经网络实现等经典的机器学习理论知识,也包括卷积神经网络、残差网络、U-Net算法、多模态等深度学习内容。此外,还介绍天池AI等平台的应用,在此基础上通过实验的方式,详细地介绍机器视觉在农业大数据分析领域的过程,以及遥感图像处理相关技术的原理与实践。结合阿里云的产品和技术资源,进行应用实验,让学生在充分理解掌握基础知识的同时,也能接触到业界最前沿的发展方向和成果。本课程通过实验大作业的方式,实现典型的机器视觉应用,训练学生模型设计与应用。
521 0
|
SQL 机器学习/深度学习 人工智能
门外汉掌握数据分析处理技术的路线图
数据分析的学习思路与技术分享
163 0
门外汉掌握数据分析处理技术的路线图
|
存储 SQL 分布式计算
数据工程师必须掌握的7个大数据实战项目
值得收藏,数据工程师必须掌握的7个大数据实战项目
7363 1
数据工程师必须掌握的7个大数据实战项目