数据治理平台Datavines

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
RDS MySQL Serverless 高可用系列,价值2615元额度,1个月
云数据库 RDS MySQL,高可用系列 2核4GB
简介: 【10月更文挑战第20天】随着数据量的增长和数字化转型的推进,数据治理成为关键议题。Datavines是一个开源的数据治理平台,提供数据目录、概览及质量检查等功能,帮助用户全面了解和管理数据,确保数据的准确性和有效性。通过简单的部署和配置,即可快速启动使用,支持数据源配置、质量监控及作业管理等核心功能。

随着数字化改革的发展,数据变得越来越多,越来越重要,怎么治理维护好这些数据,让数据更加准确有效尤为重要,数据治理也成为最近几年一个重要的话题。

今天我们来看一个开源的数据治理平台,Datavines是一个易于使用的数据治理平台,提供数据目录和数据概览让您对你的数据有全方位的了解,同时内置了多种数据质量检查规则来确保数据集成和数据处理过程中数据的准确性。

image.png
源码:https://github.com/datavane/datavines

01 部署
下载源码

git clone https://github.com/datavane/datavines.git
cd datavines

创建数据库

创建datavines

执行 script/sql/datavines-mysql.sql 脚本进行数据库的初始化

编译打包

Need: Maven 3.6.1 and later

$ mvn clean package -Prelease -DskipTests

解压修改配置

cd datavines-dist/target
tar -zxvf datavines-1.0.0-SNAPSHOT-bin.tar.gz
cd datavines-1.0.0-SNAPSHOT-bin
cd conf
vi application.yaml
主要是修改数据库信息

spring:
config:
activate:
on-profile: mysql
datasource:
driver-class-name: com.mysql.cj.jdbc.Driver
url: jdbc:mysql://127.0.0.1:3306/datavines?useUnicode=true&characterEncoding=UTF-8&serverTimezone=Asia/Shanghai
username: root
password: 123456

启动

cd bin

sh datavines-daemon.sh start mysql

02 使用
在浏览器输入:localhost:5600,就会跳转至登录界面,输入账号密码 admin/123456

第一步:配置数据源,告警方式等基础信息image.png

第二步:查看数据目录

点击数据源,可以看到质量大盘,数据目录,作业管理,作业执行记录等页面。
image.png
可以在列上添加规则,例如点击表dv_catalog_entity_instance的properties列,进入列的详情页面,点击 添加规则 按钮, 选择空值检查规则, 选择 固定值 期望值类型、输入期望值 10 , 选择 实际值 检查公式 、> 比较符并输入阈值 10, 这样选择的意思就是当实际值 > 10 ,那么检查结果为成功,否则是失败。

第三步:添加检查作业image.png

添加好规则运行的schedule和sla配置,就可以定时触发数据的质量监控。

第四步:作业执行记录

可以在这里查看作业的运行情况,还可以看质量报告大盘
image.png

相关实践学习
基于Hologres轻量实时的高性能OLAP分析
本教程基于GitHub Archive公开数据集,通过DataWorks将GitHub中的项⽬、行为等20多种事件类型数据实时采集至Hologres进行分析,同时使用DataV内置模板,快速搭建实时可视化数据大屏,从开发者、项⽬、编程语⾔等多个维度了解GitHub实时数据变化情况。
阿里云实时数仓实战 - 用户行为数仓搭建
课程简介 1)学习搭建一个数据仓库的过程,理解数据在整个数仓架构的从采集、存储、计算、输出、展示的整个业务流程。 2)整个数仓体系完全搭建在阿里云架构上,理解并学会运用各个服务组件,了解各个组件之间如何配合联动。 3 )前置知识要求:熟练掌握 SQL 语法熟悉 Linux 命令,对 Hadoop 大数据体系有一定的了解   课程大纲 第一章 了解数据仓库概念 初步了解数据仓库是干什么的 第二章 按照企业开发的标准去搭建一个数据仓库 数据仓库的需求是什么 架构 怎么选型怎么购买服务器 第三章 数据生成模块 用户形成数据的一个准备 按照企业的标准,准备了十一张用户行为表 方便使用 第四章 采集模块的搭建 购买阿里云服务器 安装 JDK 安装 Flume 第五章 用户行为数据仓库 严格按照企业的标准开发 第六章 搭建业务数仓理论基础和对表的分类同步 第七章 业务数仓的搭建  业务行为数仓效果图  
目录
相关文章
|
数据采集 分布式计算 监控
新一代数据质量平台datavines
新一代数据质量平台datavines
1176 0
|
消息中间件 SQL 分布式计算
一篇文章搞定数据同步工具SeaTunnel
一篇文章搞定数据同步工具SeaTunnel
9895 1
|
SQL 分布式计算 数据管理
12款开源数据资产(元数据)管理平台选型分析(一)
12款开源数据资产(元数据)管理平台选型分析(一)
4425 2
|
数据采集 分布式计算 Hadoop
开源数据质量解决方案——Apache Griffin入门宝典(上)
开源数据质量解决方案——Apache Griffin入门宝典
2106 0
|
存储 数据采集 数据管理
一体化元数据管理平台——OpenMetadata入门宝典
一体化元数据管理平台——OpenMetadata入门宝典
3367 0
|
Prometheus 监控 Cloud Native
DataSophon手动部署Doris操作指南
DataSophon手动部署Doris操作指南
2706 0
|
10月前
|
大数据 BI 数据可视化
最新功能发布!AllData数据中台核心菜单汇总
杭州奥零数据科技有限公司成立于2023年,专注于数据中台业务,维护开源项目AllData并提供商业版解决方案。AllData提供数据集成、存储、开发、治理及BI展示等一站式服务,支持AI大模型应用,助力企业高效利用数据价值。
最新功能发布!AllData数据中台核心菜单汇总
|
7月前
|
数据采集 监控 数据管理
【能力比对】数据质量管理VS数据质量平台
杭州奥零数据科技有限公司成立于2023年,专注于数据中台业务,维护开源项目AllData并提供商业版解决方案。AllData提供数据集成、存储、开发、治理及BI展示等一站式服务,支持AI大模型应用,助力企业高效利用数据价值。
【能力比对】数据质量管理VS数据质量平台
|
10月前
|
人工智能 运维 Cloud Native
【技术产品】DS三剑客:DeepSeek、DataSophon、DolphineSchduler浅析
在大数据与云原生技术快速发展的时代,开源技术成为推动行业进步的重要力量。本文深入探讨了三个备受瞩目的开源产品组件:DeepSeek、DataSophon 和 DolphinScheduler。DeepSeek 是专注于自然语言处理的大语言模型,具备多模态交互和高效推理功能;DataSophon 是大数据云原生平台的智能管家,提供快速部署和智能化运维;DolphinScheduler 则是分布式任务调度系统,支持复杂工作流的编排与执行。三者分别在大语言模型、大数据管理和任务调度领域展现了强大的技术实力,并通过技术互补共同推动AI与大数据技术的深度融合。
1244 2
【技术产品】DS三剑客:DeepSeek、DataSophon、DolphineSchduler浅析