数据科学与数据治理项目全纪录

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 数据科学与数据治理项目全纪录

大家好,我是独孤风。

2022年已过去一半多的时间了。这半年多,我们重点关注了LinkedIn Datahub、Atlas等元数据管理工具,了解了他们在数据治理领域的作用。

也关注了Apache Griffin等数据质量工具的使用。

但是,在数据工程领域这只是冰山一角,近期lakeFS高级工程师Einat Orr发布一份2022年的数据工程汇总图,对于数据工程领域的优秀项目进行了整理汇总。

此高清大图我已经同步到学习群中,需要此高清大图的同学可以联系我获取。

下面我们来看一下,大数据和数据治理领域有哪些值得关注的优质项目。


1、数据采集软件

这一部分主要是数据采集的实时流技术和软件服务。

值得关注的是Airbyte, Airbyte成立于 2020 年,是一个开源项目。

附上地址: https://github.com/airbytehq/airbyte

Airbyte 是一个开源 EL(T) 平台,可帮助您在数据仓库、数据湖和数据库中复制数据。

2、数据采集框架

数据采集领域越来越向高扩展性的实时流计算演变。

毫无疑问,除了商用的软件以外,Spark、Flink、Kafka、Pulsar等开源技术将继续大发异彩。


3、对象存储

对象存储不是什么新技术了,但是从来都没有被替代掉。为什么?在这个大数据发展迅速地时代,数据已经不单单是简单的文本数据了,每天有大量的图片,视频数据产生,在短视频火爆的今天,这个数量还在增加。有数据表明,当今世界产生的数据,有80%是非关系型的。那么,对于图片,视频等数据的分析可以说是大数据与人工智能的未来发展方向之一。

这一领域老牌的Ceph,SwiftStack确实有一定的市场份额,但更应该关注新兴Minio。之前我们也做过相应的实践。

大数据流动历史文章: Github 29K Star的开源对象存储方案——Minio入门宝典


4、数据湖

去年的时候,数据湖的概念越来越多的被提及。

很多的公司想通过数据湖的方式,或者湖仓一体的概念,来简化数据工程的复杂程度。

Hudi、Iceberg也成为了很多公司的选择。

目前来看Databricks的架构依然是更高性能的,目前来看他们还没有开源出更多的东西。


5、以数据为中心的机器学习

从现在看,很多东西已经非常的清晰了。

端到端 MLOps 工具,以数据为中心的机器学习方法的工具,机器学习的 可观察性和监控。

2022年deepchecks开源。

https://github.com/deepchecks/deepchecks

deepchecks用于验证 ML 模型和数据的测试套件。Deepchecks 是一个 Python 包,用于以最小的努力全面验证您的机器学习模型和数据。


6、数据治理

数据治理的道路,任重道远。

目前我们关注的重点还是Atlas和Datahub。

Atlas是老牌的Hadoop生态中的一员,对于数据血缘的支持还是足够的。

通过二次开发,Atlas可以满足大部分公司的业务需求。

而Datahub作为一颗冉冉升起的新星,更是值得持续的关注。

数据治理之元数据管理的利器——Atlas入门宝典

一站式元数据治理平台——Datahub入门宝典

万字保姆级长文——Linkedin元数据管理平台Datahub离线安装指南


相关文章
|
3天前
|
敏捷开发 监控 数据可视化
2024年十大工程管理软件评测:哪些任务可视化工具能显著提高团队效率?
在数字时代,团队协作和项目管理的效率至关重要。任务可视化工具通过直观展示任务进展、资源分配和优先级,帮助团队高效协作,减少误解和沟通成本。这类工具如Trello、Asana、ClickUp等,不仅提升了任务透明度和团队协作效率,还支持实时监控与反馈,特别适合远程工作和跨部门协作。
2024年十大工程管理软件评测:哪些任务可视化工具能显著提高团队效率?
|
6月前
|
机器学习/深度学习 数据挖掘
如何构建高效的数据科学团队
【5月更文挑战第30天】构建高效数据科学团队的关键步骤:明确目标与职责,挑选具备技能和协作能力的成员,建立沟通机制,提供资源支持,设定评估体系,培养创新文化,持续优化。通过这些策略,确保团队能提供深入数据分析,驱动业务发展。
94 0
|
机器学习/深度学习 数据采集 人工智能
数据科学实训案例研发:农业遥感图像数据分析上线阿里云
这是2020年阿里云计算有限公司-教育部产学合作协同育人项目的成果。 实训课程内容涵盖了主要内容涵盖了图像分割的基础知识,主要包括图像分割的概论、基础、分类、神经网络实现等经典的机器学习理论知识,也包括卷积神经网络、残差网络、U-Net算法、多模态等深度学习内容。此外,还介绍天池AI等平台的应用,在此基础上通过实验的方式,详细地介绍机器视觉在农业大数据分析领域的过程,以及遥感图像处理相关技术的原理与实践。结合阿里云的产品和技术资源,进行应用实验,让学生在充分理解掌握基础知识的同时,也能接触到业界最前沿的发展方向和成果。本课程通过实验大作业的方式,实现典型的机器视觉应用,训练学生模型设计与应用。
607 0
|
SQL 机器学习/深度学习 人工智能
门外汉掌握数据分析处理技术的路线图
数据分析的学习思路与技术分享
217 0
门外汉掌握数据分析处理技术的路线图
|
机器学习/深度学习 Kubernetes API
为什么我们建立机器学习工程平台,而不是数据科学平台?
大约一年前,我们中的一些人开始研究开源机器学习平台 Cortex 。我们的动机很简单:鉴于从模型中构建应用程序是一种可怕的体验,充满了胶水代码和样板,我们需要一个工具,能将这些都予以抽象化。
|
数据挖掘
如何打造数据科学团队,你想知道的都在这里
本文的两位作者分别是 Instacart 负责数据科学业务的副总裁 Jeremy Stanley,以及技术顾问、LinkedIn 前数据业务负责人 Daniel Tunkelang。
1550 0
下一篇
无影云桌面